[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: Texterkennung von Frakturschriften
Das Digitalisierungszentrum der SUB Goettingen (GDZ) beschaeftigt sich
als ueberregionales Service und Kompetenzzentrum fuer retrospektive
Digitalisierung im Auftrag der Deutschen Forschungsgemeinschaft u.a.
auch mit der Frage der automatisierten Erkennung von Frakturschrift.
Um es gleich vorwegzunehmen: Nach eingaengiger Pruefung von mehr als 12
OCR-Programmen (u.a. Omnipage, TextBridge, OPTOPUS, Recognita,
CuneiForm, ProLector, FineReader) hier nochmals die bereits auf den
Workshops der Digitalisierungszentren in Goettingen und Muenchen und
auch sonst unseren Besuchern immer wieder mitgegebene Botschaft:
***********
ein OCR-Programm, das Frakturschriften unterschiedlicher Werke aus
unterschiedlichen Zeitraeumen automatisiert erkennt, OHNE dass ein
hoher Korrekturaufwand erforderlich ist, gibt es z.Zt. (noch) NICHT!
****************
Was gibt es aber:
1) Programme, die man - mehr oder weniger ausgefeilt - trainieren
kann (z.B. FineReader, ProLector...). Dieses Training arbeitet jedoch
zumeist mit dem Vergleich von sog. Bitmustern der einzelnen Zeichen.
Bei der grossen Varianz bereits eines einzelnen Zeichens in einem Buch
kommt ein Trainingsprogramm hier schnell an seine Grenzen. Die
Ausweitung auf ein zweites Buch macht dann bereits wieder ein
erneutes Training erforderlich.
Fazit fuer 1): diese Programme sind fuer automatisierte
Frakturerkennung ohne zukuenftige Zusatzmodule nicht einsetzbar
Zur Firma WiSenT: hier beschaeftigt sich eine Firma heute tatsaechlich
intensiv mit der Frage der automatisierten Erkennung von
Frakturschriften und diese Tatsache an sich ist bereits
anerkennenswert, da die meisten anderen Softwarehaeuser hier keinen
Markt fuer Entwicklungen sehen und dementsprechend auch nicht
investieren wollen.
Das Problem waere aber technisch gesehen in den Griff zu bekommen und
das GDZ versucht hier, u.a. mit der Fa. WiSenT im Interesse
zahlreicher laufender und zukuenftiger Digitalisierungsprojekte, eine
Loesung zu finden. Wie koennte diese Loesung aussehen (nur ganz grob
umrissen):
Zunaechst bedarf es der Sammlung einer moeglichst grossen Menge
unterschiedlichster Frakturfonts. Diese Fonts muessten
daten(bank)technisch aufbereitet und eine Art Frakturalphabet
erstellt werden. Idealerweise waere noch die Hinterlegung
eines sprachhistorischen Woerterbuchs anzustreben, unterteilt in
diachronisch (sprachhistorisch) sinnvolle Sequenzen. Man muesste dann
bei der Erkennung eines bestimmten Werkes einige
Voreinstellungen im Programm vornehmen z.B. (Auswahl Frakturfont und
Woerterbuch 2. Haelfte 18. J. bis 1830).
All dies hoert sich in der Theorie leichter an als das es in der
Praxis tatsaechlich so einfach umzusetzen waere!
Die Fa. WiSent scheint es immerhin ohne sprachhistorisches Woerterbuch
geschafft zu haben, nach 2-3 Seiten Training eines Buches
Erkennungsraten zu erreichen, die ueber 95% liegen. Fuer die SUB
Goettingen wurde so u.a das Gesamtregister fuer die Goettingischen
Gelehrten Anzeigen (GGA) mit insgesamt ca. 10.000 Seiten
volltexterfasst.
Zum Abschluss nur soviel: wir werden weiterhin versuchen, moeglichst
mit Hilfe der Deutschen Forschungsgemeinschaft, ein Tool fuer die
breite Nachnutzung im akademischen Umfeld (Bibliotheken,
Universitaetsinstitute, MPIs etc.) in absehbarer Zeit zur Verfuegung zu
stellen. Solch ein Toll sollte es zumindest ermoeglichen, einen
maschinenlesbaren Volltext aus Frakturschriften (zunaechst 18./19.
Jahrhundert) automatisiert - OHNE nennenswerte Nachkorrektur - zu
generieren, den man Benutzern zumindest im Hintergrund fuer eine
Volltextrecherche zur Verfuegung stellen kann - am Bildschirm wuerde
weiterhin die Originalseite als Image (Grafikdatei) angezeigt.
Heutige Preise fuer die Volltexterfassung von Frakturschriften, die
zumeist auf ein Abschreiben hinauslaufen, liegen - je nach
Erkennungsgenauigkeit zwischen 2,50 DM und 25,00 DM (+MwSt.) pro 1000
Zeichen, wobei nach meiner Auffassung - von Spezialproblemen bei
Originalvorlagen abgesehen - ein Preis zwischen 7.50 und 10,00 DM
schon die absolute Obergrenze bilden muesste.
Wir verwenden im GDZ uebrigens das russische Programm FineReader, das
auf unsere Anregung hin mittlerweile in einer ganzen Reihe von
Digitalisierungsvorhaben sowie bei Dienstleistern verwendet wird.
Es gaebe hier noch wesentlich mehr zu sagen (schreiben), Interessierte
moegen sich einfach an das GDZ wenden.
Viele Gruesse aus Goettingen
Norbert Lossau
On 19 Jan 00 at 16:58, Klaus Graf wrote:
> From: Klaus Graf <graf _at__ uni-koblenz.de>
> To: Internet in Bibliotheken <INETBIB _at__ ub.uni-dortmund.de>
> Subject: Re: Texterkennung von Frakturschriften
> Date: Wed, 19 Jan 2000 16:58:40 -0800
> Reply-to: Internet in Bibliotheken <INETBIB _at__ ub.uni-dortmund.de>
> Organization: Universitaet Freiburg
> Dr. Steffen Wawra wrote (15.11.1999):
>
> > > Wirklich akzeptable Leseergebnisse liefert eigentlich nur die Software
> > > der Firma WiSenT, Potsdam. Diese Software eignet sich besonders fuer
> > > umfangreiche Werke einheitlicher Drucktypen, weil das Einrichten eines
> > > neuen Fonts aufwendig ist.
> > >
> > als ergaenzung dieses hinweises von dr. ecker:
> >
> > im _bibliotheksdienst_ (1999), heft 12 wird ein aufsatz _ocr fuer
> > frakturschriften: neues aus dem bereich automatischer
> > schrifterkennung_ an hand einer volltexterfassung eines buches
> > aus dem bestand der akademiebibliothek mit der oben
> > beschriebenen software auch die im hintergrund laufenden
> > prozesse beschreiben.
>
> http://www.dbi-berlin.de/dbi_pub/bd_art/bd_99/99_12_11.htm
>
> Dieser Artikel ist wenig mehr als Firmenwerbung. Die Bearbeitung dieses
> einen Buchs (450 Seiten) bis zur fertigen WWW-Praesentation hat nach
> Auskunft der Mitverfasserin S. Wuendrich (Fa. Wisent!) nicht weniger als
> 10.000 DM gekostet. Die Angaben ueber die Leistungsfaehigkeit der
> OCR-Erkennung sind in keiner Weise objektiv ueberpruefbar. Auch ich kann
> irgendeinen E-Text ins Netz stellen und behaupten, dass er mittels OCR
> erfasst wurde!
>
> Hat jemand konkrete Kostenbeispiele fuer OCR einschl. Korrekturaufwand
> bzw. manuelle Texterfassung?
>
> Klaus Graf
>
************
Dr. Norbert Lossau
Niedersaechsische Staats- und Universit?tsbibliothek Goettingen
Leiter G?ttinger DigitalisierungsZentrum GDZ
Fachreferent Finnougristik, Finnland, Ungarn
Platz der Goettinger Sieben 1
37073 Goettingen
Tel.: +49 +551/39-5217 Fax. +49 +551/39-5222
WWW: http://www.sub.uni-goettingen.de/GDZ
E-Mail: lossau _at__ mail.sub.uni-goettingen.de
Listeninformationen unter http://www.inetbib.de.