[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Trefferbegrenzung bei Google (war: Re: Ein einziges Eingabefeld:Praxis)
- Date: Tue, 20 May 2003 18:18:52 +0200
- From: Sebastian Wolf <wolf _at__ ub.uni-bielefeld.de>
- Subject: Trefferbegrenzung bei Google (war: Re: Ein einziges Eingabefeld:Praxis)
Hallo Herr Eversberg, liebe Inetbibler,
Sie schrieben am Wed, 14 May 2003 13:33:14 +0100
Aber ansonsten koennte man:
1. Bei Google anfragen, ob es eine Grenze gibt, wieviele Dateien bzw. GB von
einer Site indexiert werden
Eine "Grenze" gibt es bei Google offensichtlich nicht - oder sie liegt
bei mehreren Millionen Seiten. Von amazon.com hat Google z.B. über 3
Mio. Seiten indexiert. Das lässt sich einfach feststellen, indem man z.B
nach "allinurl:amazon.com site:amazon.com" sucht. Google zeigt dann alle
Seiten an, in denen amazon.com in der URL auftaucht und die von der
Website amazon.com stammen.
Soweit man Googles Angaben zur Treffermenge glauben darf, sind derzeit
3.410.000 Seiten von amazon.com indexiert.
Übrigens: Eine Suche einfach nach "site:amazon.com" funktioniert in
Google nicht - deshalb dieser Umstand. Alltheweb dagegen lässt z.B.
solche Recherchen nur nach einer Website zu (ebenfalls Suche:
site:amazon.com - dort findet man ca. 1,9 Mio. Seiten).
2. Ob man dem Aufsaugen von 12 Mio Doorway-Pages grundsaetzlich aufgeschlossen
gegenueber steht und somit Aussichten bestehen, dass mal mehr als 2% indexiert
werden.
Wenn Sie Ihr Konzept ueberzeugend darlegen, machen die ja vielleicht wirklich was.
Berichten Sie, was man antwortet; es koennte fuer aehnliche Vorhaben nuetzlich
sein und waere von grundsaetzlichem Interesse.
Kann ich mir nicht Vorstellen, dass Google darauf eingeht und auf eine
solche Anfrage überhaupt reagiert. Die Pressepolitik von Google ist
sowieso ziemlich "zurückhaltend" um es mal Positiv zu formulieren.
Versuchen kann man es natürlich mal, auf das Ergebnis wäre ich auch sehr
gespannt. Genauso gut (oder besser gesagt "Genauso schlecht") könnte
Google eine solche Anfrage auch dazu veranlassen, die Seiten vom HBZ
ganz aus dem Index zu entfernen, um nicht Gefahr zu laufen 12 Mio.
"Teaser"-Seiten zu indexieren.
Viele Grüße
Sebastian Wolf
--
-----------------------------------------
- Sebastian Wolf -
- Universitätsbibliothek Bielefeld -
- Internet-Gruppe -
- Tel.: 0521 / 106-4044 -
- E-Mail: wolf _at__ ub.uni-bielefeld.de -
-----------------------------------------
Listeninformationen unter http://www.inetbib.de.