[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: [InetBib] Suche über Kataloganreicherungsdaten
- Date: Mon, 19 Nov 2012 10:34:09 +0100
- From: Robert Glaß <rglass@xxxxxxxxxxxxxxxxxx>
- Subject: Re: [InetBib] Suche über Kataloganreicherungsdaten
Liebe Frau Seiler,
Bevor man über die Umsetzung von Kataloganreicherungsstrategien
nachdenkt, muss abgewogen werden, wozu ein solches Projektes dienen soll.
Aus meinem aktuellen Verständnis gibt es 3 sinnvolle Anwendungen für ein
solches Projekt:
(1) Verbesserung der Suchmaschine:
Für jede Suchanfrage an einen Bibliothekskatalog, in der weder ein
*Identifikator *(bspw. ISBN) noch eine *genaue **Titelsuche *verwendet
werden, bleibt die Qualität der Ergebnisse IMMER hinter dem Potential,
was ihr Repertoire an Katalogisaten eigentlich bietet. Wieso eigentlich ?
Die noch übrig gebliebenen Suchanfragen bezeichne ich als "freie" oder
"thematische" Suche. Diese unterscheidet sich von oben genannten
dadurch, dass der Suchende das "Zielmedium" noch NICHT kennt. Die Suche
basiert vielmehr auf einem Konzept (Bank, Fledermaus ...). Problematisch
hierbei ist nun, dass sich das Konzept durch viele Wörter in unserer
Sprache ausdrücken läßt - Synonyme, Abkürzungen, fachlichi Termini, ganz
zu schweigen von Übersetzungen in anderen Sprachen.
Mit einem dieser Terme oder einer Kombination aus Solchen wird nun eine
Suchanfrage an die Katalog-Datenbank/Index gestellt. Hier kommt nun das
Problem einer fehlenden Kataloganreicherung zum Tragen, denn fast jede
Suchmaschine basiert auf folgendem Wirkungsprinzip : Verwende die Terme
der Suchanfrage und gleiche diese mit denen im Suchindex ab. Da der
Suchindex aus den Metadaten der vorhandenen Katalogisate besteht,
bedeutet wenig Daten gleich wenig Treffer.
Betrachtet man die Kosten der Anschaffung eines Katalogisates und nimmt
man an, dass viele Suchende die Katalogssuchmaschine als Einstieg in den
Suchprozess nutzen, hat das "Fehlen" von Metadaten ein Potential zur
Ressourcenverschwendung (Nichtgefundenwerdens).
(2) Informationsübersicht:
Das Ziel einer jeden Suchanfrage (Lokalbestände) ist oft die
Standortangabe. Wenn ich NICHT nach Identifikator oder genauen
Titelsuche gesucht habe, muss ich das gefunde Medium in der
Ergebnisliste erst einmal auf Relevanz evaluieren. Stehen hier nur
wenige Metadaten zur Verfügung, kann die Evaluation schnell scheitern.
Ein Informationsangebot à la Amazon ist hierbei wünschenswert.
(3) Discovery:
Was ich bisher in der Bibliotheks-Community als Discovery wahrgenommen
habt, ist einzig die Integration verschiedener Datentöpfe in einen
homogeniesierten Suchindex.
Discovery bedeutet übersetzt Entdeckung. Entdeckung ist für mich aber
viel mehr. Entdeckung beginnt beim Klick auf den Urheber, der mir
bibliographische Informationen und ein Bild anzeigt, gefolgt von
weiteren Werken. Ähnlich dem seit kurzen verfügbaren Google Knowledge Graph.
Hier sind wir ganz schnell beim Thema semantic Web in Bibliotheken, wo
ihre Institution ja aktuell eine gute Ausgangsposition in Deutschland
inne hat.
Daten für solche Funktionalitäten sind über die Authority Files (GND)
bereits vorhanden - nun fehlen noch die Applikationen.
Nach dieser ausführlichen Einleitung zum Thema - Nutzen von
Kataloganreicherungen - möchte ich Ihr Interesse nun auf das Projekt
SLUBsemantics der SLUB Dresden lenken.
Kernidee für die Lösung der Kataloganreicherungsproblematik ist hierbei
die (semantische) Integration von Wikipedia in den Katalog.
Das Grundprinzip ist einfach: Verwende alle vorhandenen Informationen
pro Katalogisat und suche hierfür relevante Wikipedia Artikel, die das
Katalogisat mit einem "semantischen Netz umspannen".
Nehmen wir bspw. das Buch mit der ISBN 9783800614196 ("Einführung in die
Geldtheorie" - ich bin von der Ausbildung her Volkswirtschaftler). Wenn
Sie dieses Werk im SLUB Katalog (slub-dresden.de) suchen, werden Sie die
Wikipedia-Artikel über Geldtheorie, Außenwirtschaftslehre, dem Autor
Ottmar Issing und viele mehr finden.
Diese Anreicherungen wurden voll-automatisch generiert. - Mit den
technischen Details möchte ich mich an dieser Stelle aber zurückhalten,
um den Leser nicht zu verlieren.
Die Qualität ist auf Grund der Vollautomatisierung natürlich nicht bei
100 Prozent, könnten aber bspw. durch Web 2.0 orientierte
Community-Interaktionen (Rating +/-) leicht verbessert werden.
Wesentlich für die Umsetzung des Projektes ist aber, dass die Kosten zur
Anreicherung "nur" in der technischen Realisierung der
"Integrationslogiken" und deren Weiterentwicklung besteht. In
Konsequenz nur ein Bruchteil von den angesprochenen Kosten zur
Sacherschließungen entstehen.
Was hat man nun von der Anreicherung mit Wikipedia ?
(1) Verbesserung der Suchmaschine:
Die Suche in der SLUB funtkioniert mittlerweile folgendermaßen. Mit den
Suchtermen, die der Bibliotheksnutzer in den Suchschlitz eingibt, wird
die Suche als Erstes gegen die deutsche, polnische und englische
Wikipedia ausgeführt. Das Ergebnis sind im ersten Schritt relevante
Wikipedia Artikel. Jeder Wikipedia-Artikel stellt ein Konzept dar und
verfügt über zahlreiche Terme (Titel, Abstrakt, Volltext), wodurch das
Konzept aufgedeckt werden kann.
Die relevanten Wikipedia Artikel werden nun im 2. Schritt dazu genutzt,
die eigentliche Anfrage gegen die Metadaten im Suchindex anzureichern.
Dieses Prinzip bezeichnet man als Query-Expansion
(http://en.wikipedia.org/wiki/Query_expansion).
Besipielhaft erklärt: Suche ich nach "monetary economics" findet
SLUBsemantics:
* den englischen Wikipedia Artikel
http://en.wikipedia.org/wiki/Monetary_economics.
* Dieser Artikel ist mit dem deutschen Artikel
http://de.wikipedia.org/wiki/Geldpolitik verknüpft
* der Geldtheorie Artikel wurde vor der Indexbeladung mit dem Werk von
Ottmar Issing verknüpft und
kann nun als Ergebnis angezeigt werden.
Ein Beispiel zur Umsetzung eines multilingualen Katalogs.
(2) und (3)
wurden bisher nur ansatzweise umgesetzt. Es werden zwar
Wikipedia-Artikel auf den Detailseiten der Katalogssuche angezeigt, die
clickable sind, aber nicht im Sinne wie weiter oben beschrieben.
Die eigentliche Umsetzung im Frontends ist aber "nur" noch
Web-Entwicklungssache. Durch die Integration des Katalogisats mit
Wikipedia, d.h im Sinne der LOD - mit dbpedia, wurde die Schnittstelle
zum Nukleus der LOD-Cloud geschaffen, was die eigentliche Lösung des
Problems ist.
Ich hoffe mit diesem Kataloganreicherungsansatz, Ihr Interesse an dem
Ansatz der SLUB geweckt zu haben.
Der Kern - die intelligente Datenintegration - und eine community
getriebene Qualitätssicherung, die wiederum Auswirkungen auf die
"Anreicherungslogik" hat, sehe ich noch lange nicht am Ende. Ein Aufwand
der sich aber nachhaltig für unzählige Anwendungen mehr als lohnen sollte.
zu meiner Person:
Mein Name ist Robert Glaß und ich arbeite bei avantgarde-labs.de
Unser Team hat die SLUB Dresden bei der technischen Umsetzung des
innovativen Konzeptes SLUBsemantics unterstützt.
Auf der folgenden Seite finden Sie weiterführende Informationen:
http://www.slub-dresden.de/ueber-uns/projekte/infrastruktur-und-softwareentwicklung/slubsemantics/
Ansprechpartner in der SLUB ist Jens Mittelbach.
--
Robert Glaß
Founder, Data Integration Consultant
Telefon: +49(0)351 - 215 908 34
Fax: +49(0)322 - 241 80384
E-Mail: rglass@xxxxxxxxxxxxxxxxxx
Website: www.avantgarde-labs.de
Xing: http://www.xing.com/profile/Robert_Glass5
Twitter: https://twitter.com/avantgardelabs
____________________________________________________________
Avantgarde Labs GmbH | Löbauer Straße 19 | D-01099 Dresden
Geschäftsführung: Robert Glaß, Torsten Hartmann, Sandy Lucka, Sven Rega
Sitz Dresden | Amtsgericht Dresden | HRB 31215
--
http://www.inetbib.de
Listeninformationen unter http://www.inetbib.de.