[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
off-topic: Zahlenmaterial zur Volltextindizierung von Web-Sites
- Date: Tue, 1 May 2001 14:22:56 +0200 (MEST)
- From: daniel _at__ roedding.de (Daniel Roedding)
- Subject: off-topic: Zahlenmaterial zur Volltextindizierung von Web-Sites
Hallo und guten Tag,
vielen Dank für die Feedbacks bzgl. Stopwortlisten. Die Rückmeldungen
haben mir gezeigt, daß ich wohl nicht der einzige hier bin, der sich
mit dem Themenkomplex Indizierung von Websites, Volltextsuche, Recherche-
systeme etc. beschäftigt.
Da hier gerade ein kleiner "Feldtest" läuft, hier mal ein wenig
empirisch ermitteltes Zahlenmaterial. Vielleicht interessiert's ja
jemanden aus der Runde...
- Text-zu-Keyword-Ratio:
Zahl Dokumente: 3000 6000 10000
Verh. neue Keywords: 40 24 20
Das Keyword-Verhältnis gibt an, wie viele indexierungsfähige Suchworte pro
Dokument im Schnitt gefunden wurden. Die Software macht dabei keine
linugistischen Spielereien, sondern nur Stringvergleiche. Eingabematerial
waren vornehmlich deutsche und englische WWW-Seiten, ein paar "Ausreißer"
ließen sich aber nicht vermeiden.
- Erschließungsgrad:
Bei einem Start mit ca. 100 Eingabe-URLs ergeben sich nach ca. 10000
bearbeiteten Texten ca. 2400 bearbeitete Hosts, weitere ca. 12600 wurden
noch gefunden und stehen zur Indexierung an. Das ist eine "Adreß-Ausbeute"
von bisher 226 Hosts pro eingegebener URL (nach ca. 72 Stunden Laufzeit
hinter einer ISDN-Standleitung).
- Die "Schrottquote" bei Links, speziell syntaktisch inkorrekte Angaben,
ist mit über 1 % erstaunlich hoch. Zu "baumelnden" Links bekomme ich leider
mit dem aktuellen Softwareausbau keine Zahlen...
- Nettotext: Das durchschnittliche Aufkommen an Klartext pro Seite liegt
deutlich unter 4 KB. Bzw. anders herum formuliert kann man, wenn man die
ersten 4 KB Nettotext einer Seite speichert, einen signifikanten Teil
der überhaupt erfaßten Textinformation aus der Datenbank wiedergeben.
- Die "Portalseiten-Krankheit" in Zahlen: Fast ein Drittel aller
bearbeiteten Seiten hat eine Text-zu-Seitengröße-Ratio von schlechter
als 10, d. h. auf 1 KB Nettotext kommen mehr als 10 KB HTML.
- Indexierungszeit: Für eine großflächige Volltext-Indexierung von WWW-Seiten
muß man bei Verwendung handelsüblicher PC-Technologie mit Verarbeitungs-
zeiten von durchschnittlich ca. 20 Sekunden rechnen. Das Problem bei
der Indexierung von Dokumenten ist also nur sekundär die Internet-Anbindung,
sondern primär das Serversystem selbst. (Diese Zahl ist natürlich mit
Vorsicht zu genießen, weil's abhängig von der eingesetzten Software)
Ferner noch ein paar Dinge, die sich nicht in Zahlen ausdrücken lassen:
- META-Keywords sind mittlerweile anscheinend vollständig unbrauchbar.
Sie werden häufig anscheinend von den Websitebetreibern so gesetzt, daß
jede Seite ein Set von Keywords zugewiesen bekommt, welches die ganze
Site abdeckt. Das ist im Sinne einer grundsätzlichen Auffindbarkeit aus
marketingtechnischen Überlegungen heraus vielleicht nicht dumm, führt
aber sachlich zu mäßig schwachsinnigen Ergebnissen. Beispiel:
~library AND NOT (CONTENT ~library biblio* bücher*
OR TITLE ~library biblio* bücher*)
liefert bereits auf kleinem Datenbestand eine zweistellige Zahl Seiten,
die "library" oder ähnliche Worte in den META-Tags, aber weder im Titel
noch im Content enthalten (z. B. www.cyberpatrol.com, der zwar mittelbar
vielleicht mit Bibliotheken in Verbindung gebracht werden mag, wo man
sich aber über die Verwendung des Keywords "library" sicher streiten mag).
Noch krasser wird es bei "META sex AND NOT CONTENT sex*", aber das wollen
wir lieber gar nicht wissen... :-)
Das System, mit dem diese Daten ermittelt wurden, wird demnächst im Rahmen
eines Software-Feldtests öffentlich zugänglich gemacht. Dazu muß aber eines
noch ein etwas größerer Initialdatenbestand (ein paar hunderttausend Seiten)
aufgebaut werden, außerdem reichen die bisherigen hardwaretechnischen
Voraussetzungen (Hauptspeicher!) für einen offenen Betrieb noch nicht aus.
Zunächst wünsche ich mal einen sonnigen ersten Mai, bei uns hier ist das
Wetter traumhaft, werde meinen Schreibtisch gleich auch wieder verlassen...
Viele Grüße aus Ostwestfalen,
Daniel Rödding
--
Daniel Roedding phone: +49 5252 9838 0
daniel _at__ roedding.de fax: +49 5252 9838 20
Listeninformationen unter http://www.inetbib.de.