[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Suchmaschinen-Vergleich (war: Re: Suchmaschinen: MSN Beta, Google,



Lieber Herr Wolf, liebe Liste,

das Problem, welches hier sichtbar wird (PDF-Dokumente werden von
kommerziellen Suchmaschinen nur zum Teil indexiert), beschaeftigt uns
auch schon einige Zeit. Grundsaetzlich meinen wir, dass nicht schon
hinter der 100-KB-Grenze das "Invisible Web" beginnen darf, das muessten
Suchmaschinen besser/vollstaendiger koennen.

Also haben wir uns mit Forschungsportal.Net daran gemacht.
Grundsaetzlich indexiert Forschungsportal.Net (jetzt) daher auch PDF,
und zwar die gefundenen Dateien komplett. Da wir gerade noch einige
andere Erweiterungen bearbeiten, ist der Teil von Forschungsportal.Net
noch nicht vollstaendig oeffentlich, aber wer es bereits mal testen
will, findet es hier:

http://forschungsportal.net/index2.html

Bei der Indexierung von *KOMPLETTEN* PDF-Dateien haben wir allerdings
erfahren, dass dies wirklich keine einfache Aufgabe ist: unter den
Dissertationen sind beispielsweise PDF-Dateien mit einer Laenge im
GByte-Bereich, unser Crawler+Indexer hat ca. 3 Wochen gebraucht, um
(nur) die Haefte der Dissertationen der DDB zu erfassen.

Aus der Sicht kommerzieller Suchmaschinen ist dieser immense Aufwand bei
der vollstaendigen PDF-Indexierung wahrscheinlich gar nicht vertretbar:
der Teil der Nutzer kommerzieller Suchmaschinen, der auf diesen 
(kostenintensiven) Teil des Web Wert legt, wird gering sein.

Ich sehe das nur als ein weiteres Argument fuer die Notwendigkeit
wissenschaftlicher Suchmaschinen, die auch im Wissenschaftsbereich
selber entwickelt und betrieben(!) werden muessen.

Mit den besten Gruessen,
Wolfgang Sander-Beuermann
--
Dr. Wolfgang Sander-Beuermann        Tel.: 0511-762-4383       wsb@xxxxxx
Projektleiter Suchmaschinenlabor     http://metager.de/suma.html
Regionales Rechenzentrum fuer Niedersachsen (RRZN), Univ.Hannover
http://www.rrzn.uni-hannover.de/




> Hallo Klaus Graf, liebe Inetbibler,
> 
> Klaus Graf schrieb am 12 Nov 2004 um 18:38:
> 
> > Das Pdf 7, in dem Schlink ebenfalls vorkommt, wird
> > uebrigens von keiner mehr gefunden.
> 
> Ein klassisches Beispiel f=FCr das selbstgeschaffene "Invisible Web"
> der Suchmaschinen. Das betreffende PDF
> (http://www.freidok.uni-freiburg.de/volltexte/7/pdf/seinsfrage2.pdf)
> hat Google durchaus indexiert. Aber Google und andere Internet-
> Suchmaschinen indexieren nur ca. 100 KB von einem Dokument.
> 
> Das PDF hat eine Gr=F6=DFe von 6168 KB, ist also um ein vielfaches
> gr=F6=DFer. Das Wort "schlink" taucht erstmals auf Seite 172 auf, was
> weit jenseits der 100-KB-Grenze liegt. Deshalb wird keine Internet-
> Suchmaschine bei der "Schlink"-Anfrage dieses PDF finden, auch wenn
> das PDF selbst indexiert ist.
> 
> Viele Gr=FC=DFe
> 
> Sebastian Wolf
> 
> --
> Sebastian Wolf
> Universit=E4tsbibliothek Bielefeld, Internet-Gruppe
> Telefon: 0521 / 106-4044
> E-Mail: sebastian.wolf@xxxxxxxxxxxxxxxx
> URL: http://www.ub.uni-bielefeld.de


Listeninformationen unter http://www.inetbib.de.