[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [InetBib] Suche über Kataloganreicherungsdaten

Date: Mon, 19 Nov 2012 10:34:09 +0100
From: Robert Glaß <rglass@xxxxxxxxxxxxxxxxxx>
Subject: Re: [InetBib] Suche über Kataloganreicherungsdaten

Liebe Frau Seiler,

Bevor man über die Umsetzung von Kataloganreicherungsstrategiennachdenkt, muss abgewogen werden, wozu ein solches Projektes dienen soll.Aus meinem aktuellen Verständnis gibt es 3 sinnvolle Anwendungen für einsolches Projekt:


(1) Verbesserung der Suchmaschine:

Für jede Suchanfrage an einen Bibliothekskatalog, in der weder ein*Identifikator *(bspw. ISBN) noch eine *genaue **Titelsuche *verwendetwerden, bleibt die Qualität der Ergebnisse IMMER hinter dem Potential,was ihr Repertoire an Katalogisaten eigentlich bietet. Wieso eigentlich ?Die noch übrig gebliebenen Suchanfragen bezeichne ich als "freie" oder"thematische" Suche. Diese unterscheidet sich von oben genanntendadurch, dass der Suchende das "Zielmedium" noch NICHT kennt. Die Suchebasiert vielmehr auf einem Konzept (Bank, Fledermaus ...). Problematischhierbei ist nun, dass sich das Konzept durch viele Wörter in unsererSprache ausdrücken läßt - Synonyme, Abkürzungen, fachlichi Termini, ganzzu schweigen von Übersetzungen in anderen Sprachen.Mit einem dieser Terme oder einer Kombination aus Solchen wird nun eineSuchanfrage an die Katalog-Datenbank/Index gestellt. Hier kommt nun dasProblem einer fehlenden Kataloganreicherung zum Tragen, denn fast jedeSuchmaschine basiert auf folgendem Wirkungsprinzip : Verwende die Termeder Suchanfrage und gleiche diese mit denen im Suchindex ab. Da derSuchindex aus den Metadaten der vorhandenen Katalogisate besteht,bedeutet wenig Daten gleich wenig Treffer.Betrachtet man die Kosten der Anschaffung eines Katalogisates und nimmtman an, dass viele Suchende die Katalogssuchmaschine als Einstieg in denSuchprozess nutzen, hat das "Fehlen" von Metadaten ein Potential zurRessourcenverschwendung (Nichtgefundenwerdens).


(2) Informationsübersicht:

Das Ziel einer jeden Suchanfrage (Lokalbestände) ist oft dieStandortangabe. Wenn ich NICHT nach Identifikator oder genauenTitelsuche gesucht habe, muss ich das gefunde Medium in derErgebnisliste erst einmal auf Relevanz evaluieren. Stehen hier nurwenige Metadaten zur Verfügung, kann die Evaluation schnell scheitern.Ein Informationsangebot à la Amazon ist hierbei wünschenswert.


(3) Discovery:

Was ich bisher in der Bibliotheks-Community als Discovery wahrgenommenhabt, ist einzig die Integration verschiedener Datentöpfe in einenhomogeniesierten Suchindex.Discovery bedeutet übersetzt Entdeckung. Entdeckung ist für mich aberviel mehr. Entdeckung beginnt beim Klick auf den Urheber, der mirbibliographische Informationen und ein Bild anzeigt, gefolgt vonweiteren Werken. Ähnlich dem seit kurzen verfügbaren Google Knowledge Graph.Hier sind wir ganz schnell beim Thema semantic Web in Bibliotheken, woihre Institution ja aktuell eine gute Ausgangsposition in Deutschlandinne hat.Daten für solche Funktionalitäten sind über die Authority Files (GND)bereits vorhanden - nun fehlen noch die Applikationen.

Nach dieser ausführlichen Einleitung zum Thema - Nutzen vonKataloganreicherungen - möchte ich Ihr Interesse nun auf das ProjektSLUBsemantics der SLUB Dresden lenken.Kernidee für die Lösung der Kataloganreicherungsproblematik ist hierbeidie (semantische) Integration von Wikipedia in den Katalog.Das Grundprinzip ist einfach: Verwende alle vorhandenen Informationenpro Katalogisat und suche hierfür relevante Wikipedia Artikel, die dasKatalogisat mit einem "semantischen Netz umspannen".Nehmen wir bspw. das Buch mit der ISBN 9783800614196 ("Einführung in dieGeldtheorie" - ich bin von der Ausbildung her Volkswirtschaftler). WennSie dieses Werk im SLUB Katalog (slub-dresden.de) suchen, werden Sie dieWikipedia-Artikel über Geldtheorie, Außenwirtschaftslehre, dem AutorOttmar Issing und viele mehr finden.Diese Anreicherungen wurden voll-automatisch generiert. - Mit dentechnischen Details möchte ich mich an dieser Stelle aber zurückhalten,um den Leser nicht zu verlieren.Die Qualität ist auf Grund der Vollautomatisierung natürlich nicht bei100 Prozent, könnten aber bspw. durch Web 2.0 orientierteCommunity-Interaktionen (Rating +/-) leicht verbessert werden.Wesentlich für die Umsetzung des Projektes ist aber, dass die Kosten zurAnreicherung "nur" in der technischen Realisierung der"Integrationslogiken" und deren Weiterentwicklung besteht. InKonsequenz nur ein Bruchteil von den angesprochenen Kosten zurSacherschließungen entstehen.



Was hat man nun von der Anreicherung mit Wikipedia ?
(1) Verbesserung der Suchmaschine:

Die Suche in der SLUB funtkioniert mittlerweile folgendermaßen. Mit denSuchtermen, die der Bibliotheksnutzer in den Suchschlitz eingibt, wirddie Suche als Erstes gegen die deutsche, polnische und englischeWikipedia ausgeführt. Das Ergebnis sind im ersten Schritt relevanteWikipedia Artikel. Jeder Wikipedia-Artikel stellt ein Konzept dar undverfügt über zahlreiche Terme (Titel, Abstrakt, Volltext), wodurch dasKonzept aufgedeckt werden kann.Die relevanten Wikipedia Artikel werden nun im 2. Schritt dazu genutzt,die eigentliche Anfrage gegen die Metadaten im Suchindex anzureichern.Dieses Prinzip bezeichnet man als Query-Expansion(http://en.wikipedia.org/wiki/Query_expansion).Besipielhaft erklärt: Suche ich nach "monetary economics" findetSLUBsemantics:* den englischen Wikipedia Artikelhttp://en.wikipedia.org/wiki/Monetary_economics.* Dieser Artikel ist mit dem deutschen Artikelhttp://de.wikipedia.org/wiki/Geldpolitik verknüpft* der Geldtheorie Artikel wurde vor der Indexbeladung mit dem Werk vonOttmar Issing verknüpft und

kann nun als Ergebnis angezeigt werden.
Ein Beispiel zur Umsetzung eines  multilingualen Katalogs.

(2) und (3)

wurden bisher nur ansatzweise umgesetzt. Es werden zwarWikipedia-Artikel auf den Detailseiten der Katalogssuche angezeigt, dieclickable sind, aber nicht im Sinne wie weiter oben beschrieben.Die eigentliche Umsetzung im Frontends ist aber "nur" nochWeb-Entwicklungssache. Durch die Integration des Katalogisats mitWikipedia, d.h im Sinne der LOD - mit dbpedia, wurde die Schnittstellezum Nukleus der LOD-Cloud geschaffen, was die eigentliche Lösung desProblems ist.

Ich hoffe mit diesem Kataloganreicherungsansatz, Ihr Interesse an demAnsatz der SLUB geweckt zu haben.Der Kern - die intelligente Datenintegration - und eine communitygetriebene Qualitätssicherung, die wiederum Auswirkungen auf die"Anreicherungslogik" hat, sehe ich noch lange nicht am Ende. Ein Aufwandder sich aber nachhaltig für unzählige Anwendungen mehr als lohnen sollte.


zu meiner Person:
Mein Name ist Robert Glaß und ich arbeite bei avantgarde-labs.de

Unser Team hat die SLUB Dresden bei der technischen Umsetzung desinnovativen Konzeptes SLUBsemantics unterstützt.Auf der folgenden Seite finden Sie weiterführende Informationen:http://www.slub-dresden.de/ueber-uns/projekte/infrastruktur-und-softwareentwicklung/slubsemantics/

Ansprechpartner in der SLUB ist Jens Mittelbach.

--
Robert Glaß
Founder, Data Integration Consultant

Telefon: +49(0)351 - 215 908 34
Fax:        +49(0)322 - 241 80384

E-Mail:    rglass@xxxxxxxxxxxxxxxxxx
Website: www.avantgarde-labs.de
Xing:        http://www.xing.com/profile/Robert_Glass5
Twitter:   https://twitter.com/avantgardelabs
____________________________________________________________
Avantgarde Labs GmbH | Löbauer Straße 19 | D-01099 Dresden

Geschäftsführung: Robert Glaß, Torsten Hartmann, Sandy Lucka, Sven Rega
Sitz Dresden | Amtsgericht Dresden | HRB 31215

--
http://www.inetbib.de

Prev by Date: [InetBib] Presse-Information: Die Datenbank Index Theologicus als Quelle theologischer und religionswissenschaftlicher Information: Die Universitätsbibliothek Tübingen und De Gruyter schließen Kooperationsvertrag
Next by Date: [InetBib] 2 Praktikant/innen für die DZA-Bibliothek gesucht
Previous by thread: [InetBib] Suche Hilfe für Konvertierung von Daten mit MarcEdit
Next by thread: Re: [InetBib] Subject: [idw] Experten warnen vor sinkender Wissensqualität: Ursache ,>>>liegt im unkritischen Umgang mit Internetsuchmaschinen
Index(es):
- Date
- Thread

Listeninformationen unter http://www.inetbib.de.