[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [InetBib] warum dieses PDF nicht gefunden werden KANN



Hallo Herr Wolf, liebe Liste!

Ich habe nun auf dem Server www.freidok.uni-freiburg.de nach einem 
solchen Klickweg zu dem Dokument gesucht - aber nichts gefunden.
Falls ich was uebersehen habe, danke ich fuer einen Hinweis!!

Wie Herr Eberhardt schon schrieb, gibt es einen Weg. Es muss ihn auch
geben, denn der Metadatensatz ist ja auch von Google erfasst:
http://www.google.de/search?q=%22Die+Vener%2C+ein+Gm%C3%BCnder+Stadtgeschlecht+%22

Ok, das ist eine ueberzeugendes Argument. Dann kann meine bisherige
Vermutung ("nicht-Indexierung liegt an falscher Organisation des
Servers") nicht stimmen. Also wird's einen anderen Grund geben:
 
Und von hier aus hätte Google nur noch dem Link aufs PDF folgen müssen.
Aber irgendetwas hat den Googlebot offenbar abgeschreckt: Dateigröße,
Timeout, heute mal keine Lust auf PDFs - wer weiß das schon? ;)

Es gab bei der Indexierung von PDFs durch Google mal eine maximale
Dateigroesse von 100KB. Diese ist sicherlich mittlerweile hochgesetzt
und wahrscheinlich wird die Maximalgroesse jetzt dynamisch aus mehreren
Faktoren berechnet. Ein Faktor wird aber Dateigroesse geblieben sein,
und da sind 20 MB doch schone eine Menge. Ein weiterer Faktor wird sein,
dass auf diesem Server viele solcher grossen Dateien liegen, und Google
aufpasst, beim Crawlen moeglichst keinen Aerger mit dem Betreiber
anzustiften, weil zu viel gleichzeitig heruntergeladen wird. Weiterhin
koennen Zufaelligkeiten, wie z.B. schwache Netzverbindung beim Crawl
eine Rolle spielen. 

Kurzum: wir werden die Ursache fuer die nicht-Indexierung von 
http://www.freidok.uni-freiburg.de/volltexte/5729/pdf/Graf_Vener.pdf
wohl nicht herausfinden.

Keine Suchmaschine auf der Welt ist eben vollständig. 

Wohl wahr!

Das ist eine
Binsenweisheit, die gilt, seit dem es Suchmaschinen gibt und es ist auch
immer der erste Punkt, den ich in einen Schulungen zur
Internet-Recherche anspreche.

Wer hoert schon auf den "Rufer in der Wueste"? ;-)

Nichtsdestotrotz: weiterrufen!

Mit den besten Gruessen,
Wolfgang Sander-Beuermann
-- 
Dr. Wolfgang Sander-Beuermann        Tel.: 0511-762-4383
Projektleiter Suchmaschinenlabor     http://metager.de/suma.html
Regionales Rechenzentrum fuer Niedersachsen (RRZN), 
Leibniz Universitaet Hannover (LUH)

-- 
http://www.inetbib.de

Listeninformationen unter http://www.inetbib.de.