[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
AW: Antw: RE: dandelon.com und andere Browser als IE -Nebenschauplatz
- Date: Tue, 15 Jun 2004 09:19:36 +0200
- From: Rädler Karl <Karl.Raedler@xxxxxxxxxxxxx>
- Subject: AW: Antw: RE: dandelon.com und andere Browser als IE -Nebenschauplatz
Liebe Liste,
Die Vorarlberger Landesbibliothek bietet dandelon seit ca 3 Wochen als
zusätzliche Recherchemöglichkeit zum "normalen" Aleph-Katalog an.
Die Hauptintention war natürlich nicht unbedingt nach "Bibliothek" oder
"Management" oder "München" zu recherchieren. Bei solchen Anfragen liefert
auch Aleph durchaus ausreichenden Recall.
Zunächst ging es uns darum, den Recherchehorizont insbesondere im Hinblick auf
hochspezifische Begriffe ganz entscheidend zu erweitern (Beispiele:
"Elektronenspin-Resonanz", "bayerische kurzohrmaus", "pfeiffersches
drüsenfieber", "galactoceramidase"....) Dies geht so weit, dass auch die
genauen Titel von Aufsätzen, literarischen Erzählungen, Gedichten etc. in
Sammelbänden oder Werkausgaben direkt auffindbar sind, wie beispielsweise "Der
Kluge baut vor", eine Erzählung von Jura Soyfer in "Österreichische
Erzählungen des 20. Jahrhunderts. Salzburg (u.a): Residenzverl. 1984.
Oder: "wer nie sein brot mit tränen": liefert "Der neue Conrady : das große
deutsche Gedichtbuch ; von den Anfängen bis zur Gegenwart."
Die Ranking-Probleme, die Sie angesprochen haben, sind uns natürlich bekannt
und resultieren aus einem Algorithmusfehler, den wir noch beseitigen müssen
und werden.
Bei Verwendung von allgemeineren Begriffen und deren Verknüpfung sollten die
relevanten Treffer natürlich top gereiht sein. Die Tendenz ist allerdings
bereits gut erkennbar. Versuchen Sie es einmal mit "epilepsie schwangerschaft"
oder "migräne homöopathie".
Angestrebte Ranking-Logik:
Variable des Rankings sollen sowohl kategoriale Aspekte (Autor, Titel,
Schlagwort, automatische Indexierung, Volltextindexierung) als auch die
jeweiligen statistischen Repräsentationen sein. D.h.: In den
Ranking-Algorithmus sollen neben der statistischen Häufigkeit auch
kategorienspezifische Gewichte integriert sein. Dokumente, die auf Grund
spezifischer TAGs (z.B. Titel, Schlagwort) gefunden werden, sollen höher
bewertet werden als solche, die "nur" über Indexate im Feld
"Inhaltsverzeichnis" zu Treffern führen.
Besonders wichtig ist dies natürlich bei Suchanfragen, die mittels boolscher
Verknüpfung allgemeinerer Begriffe formuliert sind ("schwangerschaft AND
epilepsie"). Dokumente, die zumindest einen der Suchbegriffe im Titel oder
Schlagwort enthalten, sollen vorne gelistet werden (ist tendenziell bereits
der Fall). In diesen Dokumenten werden die verknüpften Suchbegriffe mit hoher
Wahrscheinlichkeit im Kontext behandelt, resultieren also nicht aus
Fehlverknüpfungen. Titel, insbesondere aber die intellektuell vergebenen
Schlagwörter (engste umfassende Begriffe) repräsentieren in der Regel ja
gerade den Gesamtkontext.
Sie haben auch richtig erkannt, dass das Gewicht von kürzeren
Inhaltsverzeichnissen noch zu stark ist. Auch dafür gibt es eine Variable, die
wir reduzieren werden.
In Datenbanken, die längere Texte (Inhaltsverzeichnisse bzw. Volltexte
mitindexieren lässt sich das Problem von Fehlverknüpfungen natürlich nicht
gänzlich eliminieren (ist auch in Google vorhanden. Über das Ranking sollte es
allerdings entscheidend entschärft werden können. Wir arbeiten dran!
Bemerkung zur Diskussion
Mir scheint der Focus insbesondere von Bibliothekaren zu sehr
"fehlerzentriert" zu sein.
Weniger bis nicht relevante Treffer werden tendenziell höher bewertet als die
vielen relevanten, die sonst nicht aufgefunden hätten werden können. Ich
glaube, dass das "Ranking" auch in dieser Beziehung nachjustiert werden
müsste.
Die Wahrnehmungspsychologie der Benutzer scheint nach unserer Erfahrung eine
ganz andere zu sein. Sie sind in der Regel dankbar für relevante Treffer, die
nicht relevanten treten in den Hintergrund. Nicht mehr akzeptabel sind
allerdings Null-Treffer-Meldungen bei sinnvollen Suchanfragen, obwohl
austreichend Information vorhanden wäre.
Das Echo unserer Benutzer ist jedenfalls bereits jetzt (trotz noch vorhandener
Mängel) äußerst positiv. Der Recherche-Horizont und damit der Wirkungsgrad
unseres Kapitals Information konnte entscheidend gesteigert werden.
Zudem ist dandelon.com als ein zusätzliches Angebot zum Aleph-Katalog zu
verstehen, bietet sozusagen die Möglichkeit, auf einen größeren "Maßstab"
umzuschalten.
Herzliche Grüße,
Karl Rädler
Karl Raedler
Vorarlberger Landesbibliothek
Abteilung Dokumentation
Fluherstraße 4
A-6901 Bregenz
Tel.: +43 5574 511 44014
Fax: +43 5574 511 44095
Mailto: karl.raedler@xxxxxxxxx
URL: http://www.vlr.gv.at/vlb
-----Ursprüngliche Nachricht-----
Von: owner-inetbib@xxxxxxxxxxxxxxxxxx
[mailto:owner-inetbib@xxxxxxxxxxxxxxxxxx] Im Auftrag von Helge Knuettel
Gesendet: Montag, 14. Juni 2004 14:21
An: INETBIB@xxxxxxxxxxxxxxxxxx
Betreff: Antw: RE: dandelon.com und andere Browser als IE -Nebenschauplatz
Liebe Listenmitglieder!
----
Dr. rer. nat. Helge Knüttel
Fachreferat Medizin, Informationsvermittlung Biomedizin Universitätsbibliothek
Regensburg
D-93042 Regensburg, Germany
email: helge.knuettel@xxxxxxxxxxxxxxxxxxxxxxxxxxxx
phone: ++49 941 944-5937; fax: ++49 941 944-5938
>>> marlies.ockenfeld@xxxxxxxxxxxxxxxxxx 13.06.2004 18:19:20 >>>
> Es ist wirklich erstaunlich, dass das von Manfred Hauer angesprochene
> Themenspektrum Einbindung von Thesauri usw., also die tatsächlich
> informationswissenschaftlichen Themen anscheinend niemand hier
> interessieren oder zumindest nicht zu Äußerungen veranlassen. Vor den
> Überlegungen über eine Öffnung für breite Benutzergruppen steht für
> mich die Frage der Qualität und Inhalten, nach Precision und Recall,
> die Frage des Zugangs kommt für mich erst danach.
So sekundär sind die Zugangsmöglichkeiten natürlich nicht. Ich hatte (und
habe) damit so meine Probleme, was erstmal verhinderte, daß ich das System
überhaupt testen konnte um zu sehen, was eine "intelligente" Suche denn für
Ergebnisse bringt. Bis jetzt bin ich mir ziemlich sicher, daß nicht alles
funktioniert oder gar überhaupt im Browser sichtbar wird, was programmiert
wurde.
Ich bin sehr offen für neue Recherchemethoden, mein Eindruck bezüglich der
Qualität der Suchergebnisse bei dandelon.com ist aber ambivalent. Zum einen
erhält man Treffer, die man mit einer einfachen Stichwortsuche (auch in den
Inhaltsverzeichnissen) nicht so einfach gefunden hätte. Das soll wohl auch
einer der Vorzüge des Systems sein, den ich sehr anerkenne.
Zum anderen tauchen aber zahlreiche Treffer auf, die total danebenliegen.
Diese haben teilweise eine sehr hohe Relevanz vom System zugewiesen bekommen,
d.h. sie stehen weit oben in der Liste. Solche aus meiner Sicht semantisch
falschen Treffer scheinen teilweise darin begründet zu sein, daß rein formale
Angaben in den gescannten Texten nicht ausgesondert werden, sondern für die
inhaltliche Analyse mit herangezogen werden. Dies ist schon ein klassischer
Nachteil herkömmlicher Stichwortsuchen in unstrukturierten Texten. "Falsche"
Treffer scheinen insbesondere bei einem geringen Textumfang der Scans zu
entstehen.
Beispiele zum Nachvollziehen:
- Suche nach "München": Bereits der vierte Treffer kommt durch den Verlagsort
an diese Stelle, nicht weil sich das Werk mit München befaßt. Andere Treffer
tauchen auf, weil Autoren aus München stammen. Da ist, bei aller sonstigen
Krtitik, ein herkömmlicher OPAC besser.
- Suche nach "Bibliothek": Durch das mitgescannte Barcodeetikett der
besitzenden Bibliothek mit der Aufschrift "Vlbg. Landesbibliothek" der erste
"falsche" Treffer bereits an fünfter Stelle, zahlreiche weitere falsche in den
insgesamt 631 Treffern nicht viel später und aus demselben Grund.
- Suche nach "Bibliothek and Management" liefert 62 Treffer, von denen einige
gut passende zumindest mit einer solch einfachen Stichwortsuche nicht
aufgetaucht wären. Die meisten Treffer aber liegen semantisch daneben, es
fällt mit teilweise schwer zu erklären, wie sie in die Liste kommen. Der erste
Treffer ist die deutsche Übersetzung der "Anglo-Amerikanischen
Katalogisierungsregeln", wohl weil "Library" darin vorkommt und "Leitung"
("Erarbeitet unter der Leitung des ..."). Hat ja noch mit Bibliotheken zu tun,
viele andere Treffer aber nicht.
Ich verspüre angesichts der (für mein Empfinden) vielen falschen Treffer ein
gewisses Unbehagen, was da bei der Suche vor sich geht. Ich bin mir deshalb
auch sehr unsicher, was den Recall angeht. Kann ich mich darauf verlassen, ein
Buch zu finden, von dem ich weiß, daß es vorhanden ist? Wie groß ist der
Aufwand dafür oder ist dafür ein anderes Suchsystem (der herkömmliche Katalog)
zuständig? Was hilft mir denn die "Relevanz" von Treffern, wenn diese
offensichtlich nur für das System gilt, nicht aber für mich? Mein Eindruck
ist, das System erweitert (auch bei eingestellter hoher Precision) die
eingegebenen Suchbegriffe, liefert so eine umfangreiche Liste, die ich aber
dann ganz durchsehen muß, da die Relevanz als Kriterium nicht taugt und eine
andere Sortierung nicht möglich ist.
Sind das noch Kinderkrankheiten aufgrund eines noch kleinen Korpus an
erfassten Dokumenten oder noch nicht ganz optimierten Suchalgorithmen? Wie
wird das bei einem sehr umfangreichen Korpus aussehen? Verbessert sich dann
mit der Datenbasis auch die Qualität der Recherchen oder ertrinkt man dann in
"falschen" Treffern?
Sehr hilfreich wären Angaben (Umfang, Typ, Herkunft) zu den im System
erfassten Werken auf der Website. Das erleichtert die Beurteilung des
Systemleitung und gibt vor allem Hinweise, was man bei einer "echten Suche"
denn erwarten könnte.
Mein Schluß derzeit: So innovativ wie sich das Projekt gibt, warte ich
freundlich ab, was ein größerer Korpus und ggf. angepaßte Suchalgorithmen
bringen. Ich bin auf alle Fälle sehr gespannt auf die weitere Entwicklung und
wünsche dem Projekt das Beste!
Beste Grüße
Helge Knüttel
Listeninformationen unter http://www.inetbib.de.