[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
[InetBib] ocr fraktur
OCR ist ein weites Thema und Fraktur OCR erst recht. Generell zu sagen,
dass die Ergebnisse "schlecht" waeren ist viel zu einfach und auch
schlicht falsch.
Ganz kurz:
- Die UB Innsbruck hat nicht mitentwickelt, sondern war
Projektkoordinator fuer das EU Projekt METADATA ENGINE (2000-2003), in
dem ABBYY eine Fraktur-OCR entwickelt hat (uebrigens auch mit
historischem Woerterbuch).
- ABBYY XIX ist m.W. die einzige sogenannte "Omnifont-OCR" (d.h. muss
nicht trainiert werden), die bei "Normalfraktur" und verwandten
Schriften im Sinne der unten angefuehrten Website (Normalfraktur findet
sich unter "andere Schriften") bes. gut funktioniert, die allerdings bei
anderen Frakturschriften (bes. solche vor 1850 und solche mit "gotischem
Einschlag" wie sie um 1920-1930 sehr verbreitet waren) weniger gute
Ergebnisse bringt.
http://www.fraktur.com/
- Ungeschoente Ergebnisse kann man sich kurz auf der unteren Website
ansehen, die zwei Beispiele mit mehr als 99% Erkennungsgenauigkeit
sprechen fuer sich. Andere Tests haben natuerlich gezeigt, dass z.B. bei
Zeitungen die Erkennungsgenauigkeit drastisch sinken kann (schlechte
Vorlage, Scan vom Mikrofilm, schwierige Segmentierung, seltene Fraktur
fuer Ueberschriften, etc.) M.W. wurde auch die NZZ von Frauenhofer mit
Abbyy FR XIX durchgefuehrt (allerdings die Linux-Version).
http://meta-e.aib.uni-linz.ac.at/ocr/ocr.html
- Was die Lizensierungspolitik von ABBYY angeht, so bin ich ebenfalls
nicht gluecklich, weil sie eigentlich nicht der ueblichen Vorgangsweise
von ABBYY entspricht und sich kontraproduktiv fuer die Verbreitung der
OCR auswirkt. Man muss allerdings festhalten, dass man bei groesseren
Mengen auf deutlich unter 5 Cent pro Seite fuer die Erkennung sinkt und
vergleicht man dies mit den Scanpreisen, dann handelt es sich um recht
moderate Preise. Aber natuerlich waere auch ich dafuer, dass man ABBYY
ueberzeugen koennte, den FR XIX mit gleicher Preisgestaltung wie die
anderen Produkte auszuliefern.
Guenter Muehlberger
--
Günter Mühlberger, Ph.D.
Department for Digitisation and Digital Preservation
University Innsbruck Library
6020 Innsbruck - Innrain 52 - Austria
Phone: ++43-(0)512-507-8454
Fax: ++43-(0)512-507-9842
Email: <guenter.muehlberger@xxxxxxxxxx>
URL: http://www2.uibk.ac.at/ub/dea/
Listeninformationen unter http://www.inetbib.de.