[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Anreicherung von Katalogen / dandelon.com

Date: Sat, 19 Jun 2004 11:48:20 +0200
From: Manfred.Hauer@xxxxxxxxxx
Subject: Anreicherung von Katalogen / dandelon.com
Liebe Liste,

1 Woche Inetbib-Diskussion  - Kommentare dazu:

Ich freue mich über die Ausführungen von Herrn Graf und ich greife seine
Anregungen gerne auf, mich mit amerikanischen Projekten abzustimmen, eine
Reise ist schon in Vorbereitung und Ihre Liste genau das, was ich brauche.
Hier brauche ich aber auch Unterstützung von Bibliotheksdirektoren, die
Freunde und Kollegen in den USA (oder anderen Ländern) ansprechen,
vermitteln.

Ich stimme in allen Punkten mit Herrn Graf überein, nur nicht in einem:

4. Am wichtigsten aber ist, dass von Bibliotheken erstellte
Anreicherungen als "Open Content" bzw. nach "Open
Access"-Grundsaetzen von allen anderen Bibliotheken/Nutzern
weltweit genutzt und in Kataloge eingebunden werden
koennen.

Ich stimme überein bezüglich der "Nutzer", aber nicht bezüglich der
Bibliotheken. Für Nutzer haben wir ja die Weiterleitungsfunktion von PDFs
im Angebot, dort ist aber ein Limit eingebaut, das dem persönlichen Bedarf
entspricht. Der Zugang ist kostenlos und ein mehrsprachiges Interface von
dandelon.com seit langem geplant. Wir müssen nur Zeit und Geld für die
Umsetzung haben.
Was wir aber gerade nicht wollen, ist ein massenhafter Download von
Bibliotheken, die selbst keinen Beitrag leisten. Wir erwarten zumindest
einen bescheidenen Beitrag. Warum? Bibliotheksverbünde machen faul. Eine
Inhaltserschließung von ca. 10 % beim HBZ ist eine kulturelle Katastrophe
und eigentlich ein Fall für den Rechnungshof. Das Gleiche gilt für alle
anderen Verbünde und liegt auch gar nicht an den Verbund-Machern, sondern
an der Verbundlogik und den Bibliotheken selbst. Sollen es doch andere
machen, sagen mir Bibliotheksdirektoren, soll es doch die
Nationalbibliothek machen, kam als Vorschlag in der Liste. Das ist das
Problem!  Das klingt hart - ich greife auch niemanden persönlich an, der
Verbundgedanke ist ja auch in dandelon.com. Doch bei uns darf nur
herunterladen, wer auch selbst Indexierung liefert. Wir haben uns
ursprünglich zuerst an "Die Deutsche Bibliothek" und an die Verbünde
gewandt - die Kooperation mit der GBV ist das bisher einzige Ergebnis, das
Früchte trägt. Ich realisiere einen Mix aus zentral und dezentral - hoffen
wir, es ist der richtige. International ist er auch - mit bisher nur
deutschsprachigen Staaten. Lassen Sie uns doch Brücken in andere Länder
gemeinsam bauen - und fangen wir doch erst mal in Deutschland an, hier gibt
es erst einen Bibliothek, die noch keinen Input lieferen kann, weil vorher
noch ein neues Bibliothekssystem ansteht. Auch in der Schweiz geht es
schleppend voran. Man weiss ja aus der Innovationsforschung - Fortschritt
kommt fast nie aus dem Zentrum, immer aus der Peripherie. Die Bibliothekare
in Bregenz waren die ersten mit der SWD auf unserer Thesaurus-Software IC
INDEX, dann mit ALEPH, mit intelligentCAPTURE und nun auch mit
dandelon.com. Vorarlberg sieht sich selbst als ein "Silicon-Valley" ...

Unser Produktionssystem intelligentCAPTURE ist so effizient und
"intelligent", dass Hilfskräfte - und die Angaben aus Bregenz sind ja
korrekt, auch an der UB Düsseldorf bestätigt  - in durchschnittlich 90
Sekunden ein Buch (bei durchschnittlich 5 Seiten Titelblatt plus
Inhaltsverzeichnis) scannen und verarbeiten können. Diese Zahlen kommen
nicht von uns. Für die Verarbeitung einer Konferenz-CD benötigt man einige
Sekunden für das Verschieben von Dateien - die ComInfo 2004 konnte ich in
45 Sekunden menschlicher Arbeitszeit und anschließend 24 Minuten
maschineller Arbeitszeit verarbeiten - 39,4 Sekunden pro Aufsatz im
Durchschnitt - auf einem normalen Notebook. Einige Autoren haben auf der
ComInfo das Indexat zur ihrem Vortrag gelesen - und für gut empfunden. Die
Daten sind auch in dandelon.com unter Artikel zu finden. (Nur die
englischen Aufsätze sind zu schlecht indexiert - mangels einschlägiger
Deskriptoren in unserem englischen Thesaurus). Ein mehrsprachiger Thesaurus
"Informationswissenschaften" wurde deshalb auf der ComInfo beschlossen, um
hier noch besser zu werden, das Projekt läuft jetzt an - ohne Förderung,
international. Die Verarbeitung von eJournal-Artikeln kann zu 100 %
automatisiert werden - wir sind gerade dabei diesen Workflow rund zu
machen. Also - an mangelnder Arbeitskraft, Zeit etc. kann es in den
Bibliotheken wirklich nicht liegen. Geld - auch nicht wirklich. Es ist
vermutlich ein mentales Problem, sich auf neue Lösungen einzulassen und ein
Problem komplexer bürokratischer Strukturen.

Thema: Maschinelle Intelligenz: Die Intelligenz kommt von Menschen, ist
aber in diesen Workflow verpackt (so wie in Bücher in Bibliotheken). Wir
haben die wohl beste derzeit verfügbare Linguistik implementiert
(Sprachkompetenz) und nutzen einen Universalthesaurus mit fast 300.000
Einträgen im Deutschen (Fachkompetenz). Alternativ haben wir derzeit
Technik (von FIZ Technik), Medizin (von der NLM), Wirtschaft (vom STW) und
andere Semantiken/Fachkompetenz implementiert - weitere gerne jederzeit.
Jura ist abrufbereit. Natürlich müssen alle Thesauri/Semantiken laufend
fortgeschrieben werden, dazu bieten wir einen runden Workflow auf hohem
Niveau an. Außerdem nutzen wir bei Papier die maschinelle "Intelligenz"
einer OCR-Engine. Wir versuchen bei Aufsätzen genauso wie der Mensch Teile
als wichtiger zu erkennen (Titel, Zusammenfassung, Schlussfolgerungen),
d.h. die Dokumentenstruktur zu nutzen. Hier ist noch viel zu tun, doch wir
sind am Anfang des Weges. Wir planen den Einsatz von Spracherkennung für
Nicht-Text-Objekte. Wir nutzen bei der Thesaurusentwicklung die maschinelle
Übersetzung. Vor der Aufnahme eines neuen Terms in den Thesaurus versuchen
wir solche Termkandidaten durch Berechnungen zu finden - zukünftig sollen
stets Termpaare gefunden werden.  All das sind maschinelle Intelligenzen.
Somit trifft die Bezeichnung "intelligentCAPTURE" durchaus zu - ein
einzelner Mensch wäre an vielen Stellen auch nicht schneller oder besser.
Hier geht es nicht um selbstlernende Systeme, sondern um die Integration
von vom Menschen gelerntem Stoff in technische Systeme. Nur die geplante
Spracherkennung ist "selbstlernend" - wird aber so nie eine zweite Sprache
erlernen können. Das Gegenstück zu intelligentCAPTURE ist
intelligentSEARCH, die Basis von dandelon.com oder dem Portal
Informationswissenschaften. Es sucht bei Mehrworteingaben zunächst nach
Phrasen - gibt es keinen Treffer, setzen wir ein AND zwischen die Terme.
Aus ALEPH haben wir Null-Treffer-Anfragen analysiert - darunter sind viele
deshalb nicht erfolgreich, weil die Benutzer eine Plural-Form verwenden,
Bibliothekare aber Singular-Formen erfassen. In spätestens 2 bis 3 Wochen
kommt die automatische Singular-Plural-Identifikation und maschinelle
Umsetzung (Deutsch). Somit ist es möglich, in den Thesauri und in den
Dokumentendatenbanken besser zu suchen. Thesauri: ich finde es intelligent
automatisch Synonyme, Übersetzungen und wirklich einschlägige Abkürzungen
an die eigentliche Suchfrage anzuhängen: 360.000 Worte in bis zu 5 Sprachen
unterstützen wir bereits. Hinter den 3 Suchstrategien stehen
unterschiedliche Felder (wie in den meisten OPACs), eine zunehmende
Query-Erweiterung (in der Hierarchie abwärts - aufwärts ist zu
problematisch), Stemming  und Fuzzy-Search - d.h., das, was ein guter
Rechercheur normalerweise tun sollte, ist in 3 extrem simple zu bedienende
Buttons verpackt (more precise, medium, more recall) - das ist zumindest
nicht doof, google-einfach.  Bei der Vielzahl von Thesauri macht es Sinn,
dass sich jeder seinen Sprachwelt (Query-Expansion) zuschaltet - wird unter
"Einstellungen" gesetzt. Juristen schalten sich den JuriVoc zu, Technik den
Thesaurus Technik und Management etc. - nicht jeder braucht den MeSH
(Medical Subject Headings) ...  Wenn intelligente Menschen diese Thesauri
geschrieben haben (und davon kann man ausgehen), dann ist auch eine simple
Ein- oder Zweiwort-Suchfrage schon wieder ein ganzes Stück intelligenter.
Auch Google geht ja in diese Richtung, vorläufig nur mit Synonymen. Wir
werden weitere Thesauri ergänzen - aktuell steht bei uns Umwelt, Wirtschaft
und Informationswissenschaften auf der Tagesordnung.

Die von uns realisierte Visualisierung (derzeit nur mit ActiveX und mit
FLASH) ist nicht "intelligent" - aber ziemlich kompliziert und ein
anspruchsvolles Feld in diesem Kontext: die Repräsentation von
Abstraktionen in eine 2-dimensionale Darstellung zu bringen, die besser
sein soll, als ein geschriebener Text. Ein fernes Ziel - aber Verpackung
zählt.

Das Suchbeispiel "München" und "Bibliothek" wurde als Kritik vorgetragen:
In der Tat enthalten 3 von 18.000 Titeln das Wort "Bibliothek" auf einem
mit OCR erkannten Stempel. Pech - der Stempel hätte von einem Menschen an
anderer Stelle angebracht werden müssen - doch bei rückwirkender Erfassung
sind solche Effekte nicht aufzuschließen. Doch über die eingebaute
Stoppwortlisten-Funktion in intelligentCAPTURE lässt sich solch eine
Schwäche sofort ausgleichen. Diese drei Fälle sind durchgerutscht -
Lehrgeld. Das Problem "München" wiegt schwerer und ist über keine
Stoppwortliste lösbar. Ursprünglich wurden nur Inhaltsverzeichnisse ohne
das interne (nicht urheberrechtlich geschützte) Titelblatt erfasst. Das ist
für Endbenutzer, die sich diese Daten ausdrucken problematisch, weil die
Zuordnung von Inhaltsverzeichnis zu Buch nicht mehr eindeutig erkennbar
ist. Somit hat die Landesbibliothek in Bregenz auf die Kombination
Titelblatt/TOC gewechselt. Fast immer steht dann die Ortsangabe des Verlags
auf dem Titelblatt. Dieser Titel ist für die maschinelle Indexierung oft
sehr nützlich, da er ja im Inhaltsverzeichnis sich normalerweise nicht
wiederholt. Die maschinelle Indexierung übergeht meist diese Ortsangabe,
also wäre alles in Ordnung. Doch auf Benutzerwunsch haben wir schon unter
der Suchstrategie "More precise" auch die PDF-Datei mit suchbar gemacht.
Somit rutscht der Verlagsort wieder rein - ist das Inhaltsverzeichnis sehr
kurz, dann gewinnt dieses statistisch gegenüber den langen
Inhaltsverzeichnissen überdurchschnittlich viel Gewicht. Wir steuern beim
Ladevorgang der Daten diesem Problem entgegen - aber noch nicht stark
genug. Eine Diplomarbeit evaluiert gerade, wie wir die kurzen Dokumente
weiter herunterdrücken können. Aber bis dahin ein Tipp: suchen Sie nicht
nur nach "München" - oder führt das in einem OPAC zu guten Ergebnissen bei
Suche über fast alle Felder?


Es geht mir nicht darum, dass Computer wie Menschen denken, sondern die
Intelligenz von vielen Menschen über Computer an andere vermittelt werden:
die Intelligenz in den Medien der Bibliotheken (Fachinhalte) und die
Intelligenz von Information Professionals und Informatikern in Form unserer
Lösungen. Solche Ansätze finden sich immer mehr, deshalb findet man auch
immer mehr Anbieter, die ihre Systeme "intelligent" nennen, das ist ein
globaler Marketingtrend, dem wir uns hier auch gar nicht entziehen wollen.
Können Sie damit leben?


Herzlichen Gruß - bin wieder eine Woche unterwegs.
Manfred Hauer


AGI - Information Management Consultants
Dipl.-Inf.wiss. Manfred Hauer M.A.
Mandelring 238 b
67433 Neustadt / Weinstrasse
+49 6321 96 35 - 10
Manfred.Hauer@xxxxxxxxxx
http://www.agi-imc.de
http://www.dandelon.com
Follow-Ups:
- Re: Anreicherung von Katalogen / dandelon.com
  - From: Bernhard Eversberg
- Re: Anreicherung von Katalogen / dandelon.com
  - From: Klaus-Rainer Brintzinger
- Re: Anreicherung von Katalogen / dandelon.com
  - From: Klaus Graf
Prev by Date: AW: Anreicherung von Katalogen
Next by Date: Re: Anreicherung von Katalogen / dandelon.com
Previous by thread: Anschrift
Next by thread: Re: Anreicherung von Katalogen / dandelon.com
Index(es):
- Date
- Thread
Listeninformationen unter http://www.inetbib.de.