[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Suchmaschinen und Datenbanken



Beate Otteni wrote:
> 
> Liebe Frau Wiesenmüller!
> 
> 1. Problem:
> "Ein unerfreulicher Nebeneffekt von Internet-Datenbanken besteht bekanntlich
> darin, dass deren Inhalt von Suchmaschinen nicht erfasst wird."
> 
> Kurzer Exkurs: Datenbanken werden über Schnittstellen wie z.B. cgi (=common
> gateway interface) ans Internet "angehängt". Um den gesamten Datenbankinhalt
> zu crawlen, müßten die Suchrobots/Crawler der Suchmaschinen -  über die
> Einstiegsseite (Rechercheformular auf der Internetseite) kommend - sämtliche
> Datenbank-Abfragen beherrschen, was einer Unmöglichkeit gleichkommt. Manche

Nicht unbedingt. Ich kenne eine Bibliothek, wo ueber den Seiteneinstieg
der systematischen Erschliessung so ziemlich der gesamte OPAC
nach und nach von einer bestimmten (besonders dummen) Suchmaschine
indexiert worden ist. Das Problem dabei war allerdings, dass die
internen Hyperlinks des OPACs darauf nicht eingerichtet waren, 
d.h. bis der Roboter die Ernte eingefahren hatte und die Treffer ueber
die Suchmaschine recherchierbar waren, steckten hinter den
Suchmaschinentreffern Links auf ganz andere Titel. Ausserdem produzierte 
der Roboter dieser Suchmaschine mehr Suchanfragen pro Zeiteinheit
als die gesamte Benutzerschaft zusammen (pro Tag ca. 10.000 Abfragen
ueber viele Monate).

Inzwischen ist jener Roboter entweder klueger geworden oder durch
Einsatz der beruehmten Datei "robots.txt" gezaehmt.


> Suchmaschinen können inzwischen auch URLs aufnehmen, die zum Zeitpunkt des
> Robot-Besuchs durch ein CGI-Programm generiert worden sind.
> 
> Allerdings haben die wenigsten Suchmaschinenbetreiber Lust, ihren oftmals
> mühsam schlank gehaltenen Index (Stopwortlisten etc.) mit diesen Datenfluten zu
> füllen.

Die meisten Roboter (bis auf den oben erwaehnten) werden von
sich aus davor zurueckschrecken, URLs mit "/cgi-bin" und solche
mit "?" auszuwerten. Wenn Webserver und OPAC-Software mitspielen
ist es aber kein Problem, die URLs so zu gestalten, dass auch
der pfiffigste Roboter nicht merkt, dass es sich um dynamische
Abfragen handelt. Dann muss man aber bei den Links auch darauf
achten, dass sie lange gueltig bleiben, sonst hat niemand
etwas davon. 

viele Gruesse
Thomas Berger


Listeninformationen unter http://www.inetbib.de.