[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: [InetBib] warum dieses PDF nicht gefunden werden KANN, war: Re: PDF-dateien im GoogleIndex
- Date: Thu, 25 Jun 2009 09:44:36 +0200
- From: Joachim Eberhardt <Joachim.Eberhardt@xxxxxxxxxxxxxxxxxxx>
- Subject: Re: [InetBib] warum dieses PDF nicht gefunden werden KANN, war: Re: PDF-dateien im GoogleIndex
Liebe Liste,
Wer derartige Repositories kennt, weiß, dass die Einstiegsseite zum
Dokument <http://www.freidok.uni-freiburg.de/volltexte/5729/> ist. Von
da gibt es einen "Klickweg", nämlich einen Link, auf das pdf (mit der
von Herrn Graf angegebenen Adresse). Die Seite selbst ist über die
Browsing-Funktionalität (z.B. indem man in der DDC Geschichte sich bis
1989 vorblättert) der Repository-Software zu erreichen. Das sollte also
für Google kein Problem sein.
Dass es so lange gedauert hat, das Dokument zu laden, mag an den 20MB
Umfang liegen. Ich kann jedenfalls die Ladezeit bei Eingabe des
Direktlinks nicht bestätigen.
Laut Einstiegsseite handelt es sich um "pdf mit leicht korrigierter
OCR". Alle 3 Begriffe sind im Dokument digital enthalten, wie man über
die Suchfunktion des PDF-Readers sich bestätigen kann. Die angegebenen
Gründe für die Nichtindexierung scheinen mir daher nicht stichhaltig.
Bin neugierig auf weitere Vorschläge.
Schönen Gruß, J. Eberhardt
Klaus Lehmann schrieb, Am 25.06.2009 09:10:
On Thu, 25 Jun 2009 08:52:34 +0200 Wolfgang Sander-Beuermann wrote:
<>Liebe Liste,
<>dieser "Fall", mit der Suche nach >axel nuber turmburg< die Quelle
<>http://www.freidok.uni-freiburg.de/volltexte/5729/pdf/Graf_Vener.pdf
zu
<>finden, ist auch aus suchmaschinentechnischer Sicht ein interessanter
<>Fall.
guten tag sander-beuermann,
ich denke, daß der obige link erstmal ein kleines problem selbst
darstellt.
habe obigen link eingegeben: der browser (firefox) sucht ca 2-3
minuten, und bietet dann erst die pdf zum download an.
wenn die suchmaschinen sog. timeouts drin haben (und das werden sie
haben; denn sie wollen ja schnell zum nächsten "opfer" weiter), dann
werden sie sich um diese (zeitlich) schwer zu erreichende pdf nicht
kümmern wollen.
<>Wenn nun eine Suchmaschine auf tiefergelegene Pfade des Servers
<>einsteigen wollte (z.B. bei
<>http://www.freidok.uni-freiburg.de/volltexte/5729/pdf/), dann
<>kommt hingegen vom Server sogar die Meldung "Zugriff verweigert".
das ist klar. welcher server besitzer mag es, daß man sieht, was alle
auf diesem pfad sein wird ;-)
<>
<>Zusammengefasst: dieses Dokument _KANN_ auf diesem so konfigurierten
<>Server von KEINER Suchmaschine gefunden werden. Wenn ich nichts
<>uebersehen habe, dann ist das ein klassischer Fall eines falsch
<>organisierten und konfigurierten Servers.
s.vielleicht oben(?)
viele grüße
Ihr Klaus Lehmann
--
http://www.inetbib.de
Listeninformationen unter http://www.inetbib.de.