[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: [InetBib] Hinweise erbeten: Maschinelle Verarbeitung von Literaturlisten (Referenzen)
- Date: Wed, 05 Mar 2008 12:12:12 +0100
- From: Jakob Voss <jakob.voss@xxxxxx>
- Subject: Re: [InetBib] Hinweise erbeten: Maschinelle Verarbeitung von Literaturlisten (Referenzen)
Hallo Herr Weichselgartner,
Sie schrieben:
im Rahmen eines Projektes möchten wir Literaturlisten (Referenzen)
maschinell erfassen (Scannen, OCR, Strukturanalyse, Extraktion der
Teileinheiten).
[...]
a) Die Literaturliste wird gescannt (Tipps für Scanner und Bildparameter
willkommen!)
b) OCR-Erkennung (Abbyy?)
Das ist sicher der einfache Teil, für OCR-Umgebungen gibt es genügend
Lösungen, wobei sich andere hier sicher besser auskennen als ich.
c) Strukturanalyse und Zerlegung der Liste in einzelne Referenzen (im
Beispiel zwei Stück)
Das dürfte auch noch unschwer machbar sein.
d) Zerlegung einer Referenz in ihre Teileinheiten.
Am Beispiel oben: Autor 1 = Luck, S.J.; Autor 2 = Vogel, E.K.; Jahr =
1997; Titel = The capacity of visual working memory for features and
conjunctions; Zeitschrift = Nature; Band = 390; Seiten = 279-281.
Da die Anzahl von Zitierunformaten praktisch endlos ist, und nicht alle
Formate eindeutig sind, gibt es dafür keine einfache Lösung sondern nur
mehr oder weniger gute Heuristiken. Selbst einem Menschen ist nicht
immer klar, wofür welche Teileinheiten in einer Literaturangabe stehen.
Im Open Citation Project wurde ein Parser entwickelt, der inzwischen von
ArXiV eingesetzt wird, siehe dazu
http://jakoblog.de/2008/01/24/citation-parsing/ - die Qualität ist
jedoch ziemlich durchwachsen. Falls die zu scannenden Literaturangaben
in einem einheitlichen Stil verfasst sind, könnte man einen eignen
Parser schreiben. Einige Parser gibt es auch im Rahmen von Zotero, aber
die sind ziemlich speziell.
Nach meinem Eindruck ist das Parsen von Literaturangaben eine offene
Forschungsfrage[1] bzw. mit einer Menge Feintuning in Handarbeit
verbunden. Am besten dürfte sich Thomson Scientific da auskennen, die
diverse Zitationsindizes herausgeben - aber die werden ihre Kenntnisse
kaum weitergeben. Google hat sicher auch einige Erfahrungen mit Google
Scholar. Vielleicht ist man bei CiteSeer auskunftsfreudiger.
Das beste Grundlagenpapier, das ich als Ausgangspunkt für weietre
Recherchen finden konnte ist "Digital libraries and autonomous citation
indexing" von Lawrence et al. (1998), etwas neuer sind "Identity
Uncertainty and Citation Matching" von Pasula et al. (2003) und
"Bibliographic attribute extraction from erroneous references based on a
statistical model" von Takasu (2003). Anscheinend lassen sich mit
probablistischen Verfahren ganz gute Verfahren erziehlen.
Übrigens nimmt die Bedeutung von ausgefeilten Literaturangaben ab und
die Bedeutung von Identifiern zu. Wenn ich beispielsweise die DOI eines
Artikels habe, sind die übrigen Angaben überflüssig, da man sich die
Metadaten auch anderweitig besorgen kann.
Tut mir leid, dass ich konkret auch keinen einfache Lösung nennen kann,
ich wäre allerdings sehr daran interessiert, wenn sie mehr herausfinden!
Schöne Grüße,
Jakob
[1] beispielsweise könnte man untersuchen, wie gut sich Parser aus
bekannten Zitationsstilen (BibTeX, EndNote...) automatisch erzeugen
lassen - hat den Ansatz schon jemand verfolgt?
--
Jakob Voß <jakob.voss@xxxxxx>, skype: nichtich
Verbundzentrale des GBV (VZG) / Common Library Network
Platz der Goettinger Sieben 1, 37073 Göttingen, Germany
+49 (0)551 39-10242, http://www.gbv.de
Listeninformationen unter http://www.inetbib.de.