[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Google-VK: Ernuechterung
Bevor, Fruehlingserwachen hin oder her, unerfuellbare Bluetentraeume
ins Kraut schiessen, ein paar Hinweise und Hintergruende zur
theoretischen Machbarkeit eines Google-VK:
1. Google wertet nicht nur das Wortmaterial aus, sondern auch die
Link-Texte (die blau unterstrichenen Woerter), die eine besondere
Gewichtung erhalten. Ferner werden Woerter mit grossen Anfangs-
buchstaben starker gewichtet und solche, deren Schrift relativ
groesser ist als die Grundschrift des Dokuments.
Bei der Suche wird ausserdem beruecksichtigt, wie nah zwei
Woerter beieinander stehen und wie nah am Anfang.
Alles Massnahmen, die bei Titelaufnahmen nicht anwendbar sind.
Ohnehin sind ja Titelaufnahmen nur GANZ GANZ knappe Surrogate des
Dokuments, noch nicht mal Inhaltsverzeichnisdaten stehen drin.
2. Es wird ferner eine Art Zitatenanalyse durchgefuehrt: ein
Dokument erhaelt eine Bewertungsziffer, die sich aus der Anzahl
der darauf verweisenden Links von anderen Sites ergibt.
Diese Ziffer geht stark in die "Relevanz" ein, aus der sich die
Position in der Ergebnisliste ergibt.
Natuerlich ist das eine recht aufwendige Geschichte, und
derartiges kann mit Titelaufnahmen nicht veranstaltet werden,
das ist ganz klar.
Kurz: Unser Katalogdatenmaterial entbehrt so gut wie jeder Grundlage,
um mit Google-Methoden wirkungsvoll indexiert zu werden.
Kataloge und Suchmaschinen sind hinsichtlich Datengrundlage und
Zielsetzungen ganz verschiedene Gebilde, fuer die man jeweils
eigene, spezifische Methoden entwickeln muss.
Ob und wie stark eine pekuniaere Zuwendung die Bewertungsziffer
verbessern kann, ist nicht so ohne weiteres zu erfahren...
Praktisch angewendet werden die Bewertungsziffern uebrigens auch in
einem Yahoo-aehnlichen System, das bei Google aufgebaut wird,
dem "Google Web Directory":
http://directory.google.com
Die Datengrundlage dafuer stammt vom "Open Directory Project":
http://dmoz.org/
Waehrend letzteres seine Link-Listen alphabetisch angeordnet zeigt,
bringt Google sie nach "Page Rank" sortiert. Als Beispiel kann man
sich ansehen, wie das Ranking sich auf deutsche Bibliotheken auswirkt,
wenn man diesen Zweig aufsucht:
World > Deutsch > Regional > Deutschland > Bildung > Bibliotheken
> Wissenschaftliche Allgemeinbibliotheken
Auf dieser Liste mit nur 22 Eintraegen stehen SB Muenchen und SB
Berlin auf den Plaetzen 2 und 3, dann einige namhafte UBs, auf Platz
1 aber eine, die nicht jeder dort erwarten wuerde. (Ob die den
Platz gekauft haben?) Soviel zum "Relevance Ranking", um die
Erwartungen in solche Dinge nochmals zu relativieren.
MfG B.E.
Bernhard Eversberg
Universitaetsbibliothek, Postf. 3329,
D-38023 Braunschweig, Germany
Tel. +49 531 391-5026 , -5011 , FAX -5836
e-mail B.Eversberg _at__ tu-bs.de
Listeninformationen unter http://www.inetbib.de.