[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Was Lycos (nicht) findet
A. Eine verbreitete Meinung ist die, dass Lycos u.a. die ersten 20
Zeilen indiziert. Dies stimmt nicht mit meinen Beobachtungen
ueberein.
Nehmen wir z.B. die CUSI-Seite (kombinierter Such- und
Nachweisdienst) http://www.ulysses.net/cusi/cusi.html .
Folgende Begriffe aus dem ersten Textblock muessten suchbar sein,
sind es aber nicht: comprehensive, ultimate, subject, useful,
finding, Yahoo. (Bei CUSI-Chemnitz waeren es z.B. die Begriffe:
Optionen, einstellbar, Software.)
Was die Headers (Zwischenueberschriften) betrifft, so wird aus den
7 Headers nur ein einziger(!) Begriff indiziert ("Indices").
Wie sieht es mit der restlichen Indizierung aus? Indiziert sind
z.B.: Nikos, CUI, Veronica, Netfind, WAIS. Nicht indiziert
z.B.: WebCrawler, Galaxy, Clearinghouse, RFC, Factbook.
Die Auswahl der indizierten Begriffe erscheint willkuerlich,
wenngeich sie vermutlich mit der relativen Haeufigkeit der
Begriffe in der Datenbank zu tun hat. Der Eindruck der Willkuer
wird durch die Beobachtung verstaerkt, dass die Indizierung
in verschiedenen CUSI-Varianten durchaus variiert: In CUSI EBI
ist auch der WebCrawler indiziert, in der Chemnitzer Variante
von den oben genannten nur CUI, wobei man sich fragt, wieso
gerade dieser Begriff zu der Ehre gelangt.
Wie verifiziert man vorstehende Aussagen?: durch Sucheingabe von
"Nikos CUI Veronica Netfind WAIS <Testbegriff>" bzw.
"CUSI Suchmoglichkeiten <Testbegriff>" (fuer die Chemnitzer
Variante)
in dem (von der Homepage ueber "Options" zugaenglichen)
Suchmenue mit Search Option "AND". Es laesst sich so leicht
feststellen, ob der CUSI-Site in der Treffermenge liegt.
(Eine alternative Erklaerungsmoeglichkeit waere die, dass die
fraglichen Begriffe zwar indiziert sind, aber die Suchergebnisse
unter der 0.1-Relevanzschranke liegen - dass Lycos sozusagen in
die eigene Relevanzfalle tappt. Dagegen spricht, dass bei einer
OR-Verknuepfung mit "loose match"- Voreinstellung die zuerst
angezeigten, alle Suchbegriffe enthaltenden Treffer nach meinen
Beobachtungen stets vollstaendig in der Treffermenge enthalten
sind. Die AND-Verknuepfung bewirkt also nur das Weglassen der
Treffer mit weniger Suchbegriffen.)
B. Es wundert nicht, dass in Einzelfaellen diese Indizierungspraxis zu
unbefriedigenden Suchergebnissen fuehrt. Sucht man z.B. mit der
Sucheingabe
"lycos yahoo cui archie veronica faqs"
nach kombinierten Suchmaschinen, so liefert die AND-Verknuepfung
beim WebCrawler zum Vergleich 45 vorzuegliche Ergebnisse,
waehrend Lycos keinen Treffer findet, und auch die ersatzweise
durchgefuehrte OR-Verknuepfung foerdert nichts Berauschendes
zutage .
Aehnliche Ergebnisse bei der Suchfrage "Internet navigating
training": Lycos (4), WebCrawler (74).
Die Zitatsuche "Matthew Gray growth" ("Measurering the growth of
the Web") fuehrt zu keinem Erfolg, da "Gray" indiziert ist,
"Matthew" dagegen nicht.
C. Es kommt gelegentlich vor, dass eine Seite nicht ueber die
Stichwoerter recherchierbar sind, die in der zugehoerigen Summary-
Results-Anzeige (einzeiligen Kurzanzeige) von Lycos vorkommen
(die nicht immer mit dem Title des HTML-Formats identisch ist -
aber in den folgenden Faellen):
Die Content-Summary-Liste zu der Sucheingabe "Vorsicht linklist"
enthaelt den Eintrag "Chaos' links to the world". Die Eingabe
"Chaos links world" hat aber keine Treffer.
Oder: Ueber die exakte Suche "sonstige. software." kann der
gleichnamige Titel nicht ermittelt werden. Diesen findet man
z.B. ueber die Suchbegriffe "simulink informationen."
(Die Sucheingaben "links" und "sonstige." fuehren einzeln zu
Treffern, sind als keine Stopwoerter.)
D. Ich moechte klarstellen, dass ich die Suchmaschine Lycos nicht
nicht nur nicht "schlechtreden" moechte, sondern sie ganz im
Gegenteil - richtig eingesetzt - fuer ausserst nuetzlich halte.
Die Sucheingabe "GNA" liefert 14-mal so viele Treffer wie der
WebCrawler. Und wer bei der Suche nach dem Informationsdienst
DINO auf Dinosaurier-Referenzen verzichten moechte, wird die
Moeglichkeit der exakten Suche zu schaetzen wissen ("dino.").
Als Bonbon fuer den geduldigen Leser abschliessend noch ein Trick
zur Simulation von logischen Klammern (in einem einfachen Fall) in
Lycos, wobei mehrere Funktionalitaeten ausgenutzt werden:
Um den Boole'schen Suchausdruck
warming AND (oceans OR atmosphere)
zu realisieren, gibt man
warming warmin$ oceans atmosphere
ein und waehlt als Search Option "match 3 terms".
(Der Term warmin$ simuliert fuer das System den fuer den Trick
notwendigen vierten Suchbegriff.)
zu A-C: Rueckschluesse aus Beobachtungen auf die Indizierung sind
natuerlich immer hypothetisch. Daher freue ich mich auf kritische
Kommentare hierzu. Entscheidender sind die Beobachtungen selbst -
nach dem Motto "nichts glauben, was man nicht selbst ausprobiert hat".
binder _at__ ub.uni-bielefeld.de W. Binder
Listeninformationen unter http://www.inetbib.de.