[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [InetBib] Suche über Kataloganreicherungsdaten



Liebe Frau Seiler,

Bevor man über die Umsetzung von Kataloganreicherungsstrategien nachdenkt, muss abgewogen werden, wozu ein solches Projektes dienen soll. Aus meinem aktuellen Verständnis gibt es 3 sinnvolle Anwendungen für ein solches Projekt:

(1) Verbesserung der Suchmaschine:
Für jede Suchanfrage an einen Bibliothekskatalog, in der weder ein *Identifikator *(bspw. ISBN) noch eine *genaue **Titelsuche *verwendet werden, bleibt die Qualität der Ergebnisse IMMER hinter dem Potential, was ihr Repertoire an Katalogisaten eigentlich bietet. Wieso eigentlich ? Die noch übrig gebliebenen Suchanfragen bezeichne ich als "freie" oder "thematische" Suche. Diese unterscheidet sich von oben genannten dadurch, dass der Suchende das "Zielmedium" noch NICHT kennt. Die Suche basiert vielmehr auf einem Konzept (Bank, Fledermaus ...). Problematisch hierbei ist nun, dass sich das Konzept durch viele Wörter in unserer Sprache ausdrücken läßt - Synonyme, Abkürzungen, fachlichi Termini, ganz zu schweigen von Übersetzungen in anderen Sprachen. Mit einem dieser Terme oder einer Kombination aus Solchen wird nun eine Suchanfrage an die Katalog-Datenbank/Index gestellt. Hier kommt nun das Problem einer fehlenden Kataloganreicherung zum Tragen, denn fast jede Suchmaschine basiert auf folgendem Wirkungsprinzip : Verwende die Terme der Suchanfrage und gleiche diese mit denen im Suchindex ab. Da der Suchindex aus den Metadaten der vorhandenen Katalogisate besteht, bedeutet wenig Daten gleich wenig Treffer. Betrachtet man die Kosten der Anschaffung eines Katalogisates und nimmt man an, dass viele Suchende die Katalogssuchmaschine als Einstieg in den Suchprozess nutzen, hat das "Fehlen" von Metadaten ein Potential zur Ressourcenverschwendung (Nichtgefundenwerdens).

(2) Informationsübersicht:
Das Ziel einer jeden Suchanfrage (Lokalbestände) ist oft die Standortangabe. Wenn ich NICHT nach Identifikator oder genauen Titelsuche gesucht habe, muss ich das gefunde Medium in der Ergebnisliste erst einmal auf Relevanz evaluieren. Stehen hier nur wenige Metadaten zur Verfügung, kann die Evaluation schnell scheitern. Ein Informationsangebot à la Amazon ist hierbei wünschenswert.

(3) Discovery:
Was ich bisher in der Bibliotheks-Community als Discovery wahrgenommen habt, ist einzig die Integration verschiedener Datentöpfe in einen homogeniesierten Suchindex. Discovery bedeutet übersetzt Entdeckung. Entdeckung ist für mich aber viel mehr. Entdeckung beginnt beim Klick auf den Urheber, der mir bibliographische Informationen und ein Bild anzeigt, gefolgt von weiteren Werken. Ähnlich dem seit kurzen verfügbaren Google Knowledge Graph. Hier sind wir ganz schnell beim Thema semantic Web in Bibliotheken, wo ihre Institution ja aktuell eine gute Ausgangsposition in Deutschland inne hat. Daten für solche Funktionalitäten sind über die Authority Files (GND) bereits vorhanden - nun fehlen noch die Applikationen.


Nach dieser ausführlichen Einleitung zum Thema - Nutzen von Kataloganreicherungen - möchte ich Ihr Interesse nun auf das Projekt SLUBsemantics der SLUB Dresden lenken. Kernidee für die Lösung der Kataloganreicherungsproblematik ist hierbei die (semantische) Integration von Wikipedia in den Katalog. Das Grundprinzip ist einfach: Verwende alle vorhandenen Informationen pro Katalogisat und suche hierfür relevante Wikipedia Artikel, die das Katalogisat mit einem "semantischen Netz umspannen". Nehmen wir bspw. das Buch mit der ISBN 9783800614196 ("Einführung in die Geldtheorie" - ich bin von der Ausbildung her Volkswirtschaftler). Wenn Sie dieses Werk im SLUB Katalog (slub-dresden.de) suchen, werden Sie die Wikipedia-Artikel über Geldtheorie, Außenwirtschaftslehre, dem Autor Ottmar Issing und viele mehr finden. Diese Anreicherungen wurden voll-automatisch generiert. - Mit den technischen Details möchte ich mich an dieser Stelle aber zurückhalten, um den Leser nicht zu verlieren. Die Qualität ist auf Grund der Vollautomatisierung natürlich nicht bei 100 Prozent, könnten aber bspw. durch Web 2.0 orientierte Community-Interaktionen (Rating +/-) leicht verbessert werden. Wesentlich für die Umsetzung des Projektes ist aber, dass die Kosten zur Anreicherung "nur" in der technischen Realisierung der "Integrationslogiken" und deren Weiterentwicklung besteht. In Konsequenz nur ein Bruchteil von den angesprochenen Kosten zur Sacherschließungen entstehen.


Was hat man nun von der Anreicherung mit Wikipedia ?
(1) Verbesserung der Suchmaschine:
Die Suche in der SLUB funtkioniert mittlerweile folgendermaßen. Mit den Suchtermen, die der Bibliotheksnutzer in den Suchschlitz eingibt, wird die Suche als Erstes gegen die deutsche, polnische und englische Wikipedia ausgeführt. Das Ergebnis sind im ersten Schritt relevante Wikipedia Artikel. Jeder Wikipedia-Artikel stellt ein Konzept dar und verfügt über zahlreiche Terme (Titel, Abstrakt, Volltext), wodurch das Konzept aufgedeckt werden kann. Die relevanten Wikipedia Artikel werden nun im 2. Schritt dazu genutzt, die eigentliche Anfrage gegen die Metadaten im Suchindex anzureichern. Dieses Prinzip bezeichnet man als Query-Expansion (http://en.wikipedia.org/wiki/Query_expansion). Besipielhaft erklärt: Suche ich nach "monetary economics" findet SLUBsemantics: * den englischen Wikipedia Artikel http://en.wikipedia.org/wiki/Monetary_economics. * Dieser Artikel ist mit dem deutschen Artikel http://de.wikipedia.org/wiki/Geldpolitik verknüpft * der Geldtheorie Artikel wurde vor der Indexbeladung mit dem Werk von Ottmar Issing verknüpft und
kann nun als Ergebnis angezeigt werden.
Ein Beispiel zur Umsetzung eines  multilingualen Katalogs.

(2) und (3)
wurden bisher nur ansatzweise umgesetzt. Es werden zwar Wikipedia-Artikel auf den Detailseiten der Katalogssuche angezeigt, die clickable sind, aber nicht im Sinne wie weiter oben beschrieben. Die eigentliche Umsetzung im Frontends ist aber "nur" noch Web-Entwicklungssache. Durch die Integration des Katalogisats mit Wikipedia, d.h im Sinne der LOD - mit dbpedia, wurde die Schnittstelle zum Nukleus der LOD-Cloud geschaffen, was die eigentliche Lösung des Problems ist.

Ich hoffe mit diesem Kataloganreicherungsansatz, Ihr Interesse an dem Ansatz der SLUB geweckt zu haben. Der Kern - die intelligente Datenintegration - und eine community getriebene Qualitätssicherung, die wiederum Auswirkungen auf die "Anreicherungslogik" hat, sehe ich noch lange nicht am Ende. Ein Aufwand der sich aber nachhaltig für unzählige Anwendungen mehr als lohnen sollte.

zu meiner Person:
Mein Name ist Robert Glaß und ich arbeite bei avantgarde-labs.de
Unser Team hat die SLUB Dresden bei der technischen Umsetzung des innovativen Konzeptes SLUBsemantics unterstützt. Auf der folgenden Seite finden Sie weiterführende Informationen: http://www.slub-dresden.de/ueber-uns/projekte/infrastruktur-und-softwareentwicklung/slubsemantics/
Ansprechpartner in der SLUB ist Jens Mittelbach.

--
Robert Glaß
Founder, Data Integration Consultant

Telefon: +49(0)351 - 215 908 34
Fax:        +49(0)322 - 241 80384

E-Mail:    rglass@xxxxxxxxxxxxxxxxxx
Website: www.avantgarde-labs.de
Xing:        http://www.xing.com/profile/Robert_Glass5
Twitter:   https://twitter.com/avantgardelabs
____________________________________________________________
Avantgarde Labs GmbH | Löbauer Straße 19 | D-01099 Dresden

Geschäftsführung: Robert Glaß, Torsten Hartmann, Sandy Lucka, Sven Rega
Sitz Dresden | Amtsgericht Dresden | HRB 31215

--
http://www.inetbib.de


Listeninformationen unter http://www.inetbib.de.