[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
[InetBib] OCR-D: Umfrage zur Nutzung von OCR-Text
Liebe Liste,
das DFG-Koordinierungsprojekt OCR-D (www.ocr-d.de) ist auf die
Weiterentwicklung von Verfahren der Optical Character Recognition (OCR) für
historische Drucke ausgerichtet. Einen Arbeitsschwerpunkt bilden die
Langzeitverfügbarkeit und Persistenz des zu gewinnenden Textmaterials. Dabei
stellen sich besondere Herausforderungen, denn Text, der mittels OCR-Techniken
erkannt wird, ist Veränderungen ausgesetzt. Im überwiegenden Fall wird es sich
dabei um Korrekturen handeln. Diese erfolgen durch:
- automatische bzw. halbautomatische Nachkorrektur mittels Sprachmodellen,
historischen Wörterbüchern etc.
- intellektuelle Nachkorrektur, z. B. durch Crowdsourcing
- Neuprozessierungen: Eine Weiterentwicklung und Verbesserung der OCR-Techniken
lassen eine erneute Texterkennung eines bereits erkannten Textes sinnvoll
erscheinen
Arbeitsergebnisse, die z.B. auf der Auswertung größerer Textmengen beruhen,
würden ohne Archivierung der vorausgehenden Zustände, ihre Nachweisgrundlage
verlieren.
In diesem Zusammenhang möchten wir Nutzer/innen unterschiedlichster Disziplinen
über die Bedeutung von OCR-Text und dessen Archivierung befragen. Wir würden
uns freuen, wenn Sie sich 3 Minuten Zeit nähmen, um die folgenden neun Fragen
zu beantworten: http://www.ocr-d.de/?q=node/7
Mit freundlichen Grüßen
Sebastian Mangold
für das DFG-Koordinierungsprojekt zur Weiterentwicklung von Verfahren der
Optical Character Recognition (OCR)
Sebastian Mangold M.A.
Bayerische Staatsbibliothek
Digitale Bibliothek / Münchener Digitalisierungszentrum (MDZ)
Ludwigstraße 16
80539 München
Tel +49 89 28638 2752
Fax +49 89 28638 2672
E-Mail: Sebastian.Mangold@xxxxxxxxxxxxxxx
http://www.bsb-muenchen.de
http://www.ocr-d.de
Listeninformationen unter http://www.inetbib.de.