[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
[InetBib] Abschriften historischer Drucke (Ground Truth) für das Koordinierungsprojekt OCR gesucht
- Date: Mon, 02 Nov 2015 17:22:16 +0100
- From: "Sebastian Mangold" <Sebastian.Mangold@xxxxxxxxxxxxxxx>
- Subject: [InetBib] Abschriften historischer Drucke (Ground Truth) für das Koordinierungsprojekt OCR gesucht
Liebe Kolleginnen und Kollegen,
im Rahmen des DFG-Koordinierungsprojekts zur Weiterentwicklung von Verfahren
der Optical Character Recognition (OCR) (siehe
http://www.inetbib.de/listenarchiv/msg56722.html) werden verlässliche
Abschriften in elektronischer Form (sogen. Ground Truth) von historischen
Drucken aus dem deutschen Sprachraum gesucht.
Ein wesentliches Desiderat für die Weiterentwicklung von OCR-Verfahren für
historische Drucke ist eine breite Basis an Trainingsmaterial. Damit können zum
einen Texterkennungsprogramme trainiert und ihre Erkennungsraten verbessert
werden. Zum anderen können verschiedene OCR-Verfahren bezüglich ihrer
Performanz bei historischen Vorlagen untersucht sowie die Qualität maschinell
erkannter Texte gemessen werden.
Haben Sie vielleicht Titel des 16. bis 19. Jh.s (deutsch oder lateinisch) im
Rahmen von Ausstellungen, Projekten etc. erfasst? Entscheidend ist dabei
weniger Anzahl und Umfang der Titel als die Genauigkeit der Erfassung. Durch
Mitteilung solcher Materialien (auch einzelner Titel) können Sie zur
Weiterentwicklung der maschinellen Texterkennung beitragen. Eine für alle frei
nutzbare OCR kann nur mit breiter Unterstützung vorangetrieben werden.
Selbstverständlich werden Ihre Daten ausschließlich für die im Projekt
definierten Ziele verwendet. Alle durch das OCR-Vorhaben zustande gekommenen
Ergebnisse werden der Fachöffentlichkeit bekannt gemacht und stehen zur
kostenfreien Nachnutzung durch Dritte bereit.
Wir werden diesen Aufruf auch an geistes- und sozialwissenschaftliche
Einrichtungen senden, da anzunehmen ist, dass zahlreiche Texte als
‚Hilfsmittel‘ in unterschiedlichsten Projekten erfasst worden sind, ohne dass
sie im Fokus des Vorhabens standen. Nur zur internen Nutzung bestimmt, fanden
und finden sie keinen Weg in die Öffentlichkeit. Das kann ich zumindest aus
eigener Erfahrung berichten.
Ich würde mich über zahlreiche Rückmeldungen und Weiterverbreitung des Aufrufs
sehr freuen.
Mit freundlichen Grüßen
Sebastian Mangold
für das DFG-Koordinierungsprojekt zur Weiterentwicklung von Verfahren der
Optical Character Recognition (OCR)
Sebastian Mangold M.A.
Bayerische Staatsbibliothek
Digitale Bibliothek / Münchener Digitalisierungszentrum (MDZ)
Ludwigstraße 16
80539 München
Tel +49 89 28638 2752
Fax +49 89 28638 2672
E-Mail: Sebastian.Mangold@xxxxxxxxxxxxxxx
http://www.bsb-muenchen.de
Listeninformationen unter http://www.inetbib.de.