[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [InetBib] PDF-dateien im GoogleIndex

Date: Mon, 29 Jun 2009 17:31:54 +0200
From: "Kleiner, Eike" <Eike.Kleiner@xxxxxxxxx>
Subject: Re: [InetBib] PDF-dateien im GoogleIndex

Sehr geehrter Herr Graf, liebe Liste,

Soweit IRs eine eigene Volltextsuche anbieten wie DSpace, waere eine 
Metasuche dieser Angebote ein Schritt in die richtige Richtung - 
ergaenzend zu Google. Und OPUS muss eine eigene Volltextsuche 
anbieten, die wiederum serveruebergreifend als Metasuche ausgestaltet 
sein sollte.
Da die meisten deutschen IRs OPUS verwenden, waere das ein wichtiger 
Schritt. Wenn (Meta-)Suchmaschinenprogrammierer es lernen wuerden, bei 
Bedarf nur diejenigen Treffer auszugeben, die NICHT bei Google sind, 
waere das ebenfalls zielfuehrend.


Danke für den Hinweis. Dieser Bedarf wird in der OPUS-Entwicklung ebenso 
gesehen. In der aktuellen Entwicklung hin zur neuen Version OPUS 4 wurde eine 
Volltextsuche auf Basis von Lucene in die Software integriert. Diese wird 
Out-of-the-Box einsetzbar sein und ab der ersten öffentlichen Version von OPUS 
4 ausgeliefert.

Viele Grüße
Eike Kleiner
-- 
Bibliotheksservice-Zentrum Baden-Wuerttemberg
78457 Konstanz
Tel: +49-7531/88-2859
http://titan.bsz-bw.de/cms/Members/Kleiner

-----Original Message-----
From: inetbib-bounces@xxxxxxxxxxxxxxxxxx 
[mailto:inetbib-bounces@xxxxxxxxxxxxxxxxxx] On Behalf Of Klaus Graf
Sent: Monday, June 29, 2009 5:16 PM
To: Internet in Bibliotheken
Subject: Re: [InetBib] PDF-dateien im GoogleIndex

On Mon, 29 Jun 2009 16:59:19 +0200
 Sebastian Wolf <sebastian.wolf@xxxxxxxxxxxxxxxx> wrote:

Hallo liebe Liste,

Karl Dietz schrieb:

Sind auch zwei unterschiedliche Arten von Text im PDF.

Das duerfte der

Grund sein, Klaus.


Nein, das wurde doch schon untersucht und zurecht

ausgeschlossen. Es

liegt einfach an Googles Unvollständigkeit. Das grafsche PDF ist ja 
nicht das einzige, dass Google nicht indexiert hat.

Der Freidok-OAI-Server liefert als "completeListSize"
5866 (=
Metadatensätze). PDF ist das einzige Format, was der Freidok-Server 
akzeptiert und zu jedem Dokument muss es mindestens 1 PDF

geben, also

mindestens 5866 PDFs.

Von den 5866 Einstiegsseiten hat Google nach eigenen Angaben 5820 
Seiten
indexiert:

http://www.google.com/search?q=site%3Afreidok.uni-freiburg.de+

"eingang+zum+volltext"&filter=0


Und davon wiederum nur 5090 PDFs:

http://www.google.com/search?q=site%3Afreidok.uni-freiburg.de+

filetype%3Apdf&filter=0


Verifizieren lässt sich die Trefferzahl nicht, da Google

nur max. 1000

Treffer anzeigt. Wenn aber Googles eigene Angaben stimmen,

hat Google

zu knapp 800 indexierten Freidok-Einstiegsseiten nicht das 
dazugehörige PDF indexiert.

Das stimmt übrigens ganz gut mit Tests für andere Server

überein, die

ich mal durchgeführt habe - Google hat oft nur ca. 80% der 
Einstiegsseiten indexiert. Lücken gibt es dabei in allen

Jahren, nicht

nur bei den neuesten Einträgen.

Bing hat nach eigenen Angaben nur 4.770 PDFs vom

Freidok-Server drin:

http://www.bing.com/search?q=site%3Afreidok.uni-freiburg.de+fi

letype%3Apdf&filter=0


Es ist eben so: Google, Bing und alle anderen SuMas

indexieren manche

Dateien einfach nicht. Eine Regelmäßigkeit konnte ich da noch nie 
feststellen, warum eine Seite von Google indexiert wird und eine 
andere nicht. Das einzige, was der Betreiber machen kann, ist eine 
spezielle Sitemap für Suchmaschinen zu erstellen, um alle Seiten in 
den Index reinzukriegen. Eine Garantie ist das natürlich

auch nicht,

aber vielleicht kommen ja so am Ende 90% der PDFs rein.

Viele Grüße

Sebastian Wolf


Vielen Dank fuer diesen fundierten Beitrag, der meine eigenen 
Feststellungen ergaenzt.

Aus der Sicht der Open-Access-Anhaenger muess es dringend 
wuenschenswert sein, dass der VOLLTEXT aller Eprints (und 
nicht nur 90 Prozent) fuer eine Suche zur Verfuegung steht.

OAI-Metadaten sind unzureichend! 

Seit dem Scheitern des Hochschulschriften-Harvestings von 
Metager kenne ich keinen von Google unabhaengigen Versuch, 
OA-Volltexte IR-uebergreifend suchbar zu machen.

Soweit IRs eine eigene Volltextsuche anbieten wie DSpace, 
waere eine Metasuche dieser Angebote ein Schritt in die 
richtige Richtung - ergaenzend zu Google. Und OPUS muss eine 
eigene Volltextsuche anbieten, die wiederum 
serveruebergreifend als Metasuche ausgestaltet sein sollte.
Da die meisten deutschen IRs OPUS verwenden, waere das ein 
wichtiger Schritt. Wenn (Meta-)Suchmaschinenprogrammierer es 
lernen wuerden, bei Bedarf nur diejenigen Treffer auszugeben, 
die NICHT bei Google sind, waere das ebenfalls zielfuehrend.

Klaus Graf   

--
http://www.inetbib.de



-- 
http://www.inetbib.de

References:
- [InetBib] PDF-dateien im GoogleIndex
  - From: Karl Dietz
- Re: [InetBib] PDF-dateien im GoogleIndex
  - From: Karl Dietz
- Re: [InetBib] PDF-dateien im GoogleIndex
  - From: Karl Dietz
- Re: [InetBib] PDF-dateien im GoogleIndex
  - From: Wolfgang Sander-Beuermann
- Re: [InetBib] PDF-dateien im GoogleIndex
  - From: Sebastian Wolf
- Re: [InetBib] PDF-dateien im GoogleIndex
  - From: Klaus Graf

Prev by Date: Re: [InetBib] PDF-dateien im GoogleIndex
Next by Date: Re: [InetBib] Software für Schulbibliotheken
Previous by thread: Re: [InetBib] PDF-dateien im GoogleIndex
Next by thread: [InetBib] UB Tutor. Bd. 2. Psychologie und Medizin
Index(es):
- Date
- Thread

Listeninformationen unter http://www.inetbib.de.