[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[InetBib] OCR-D in Phase III: Unsere Projekte und Communityformate



Liebe Liste,

seit 2015 arbeitet die DFG-Förderinitiative OCR-D an der Weiterentwicklung von 
Verfahren der Optical Character Recognition (OCR) von historischen Drucken und 
konnte bereits eine prototypische OCR-Software [1] vorlegen. Diese ist mit 
ihrer Vielzahl an verfügbaren Werkzeugen für eine große Bandbreite an 
unterschiedlichen Anwendungsszenarien geeignet. In Phase III steht die 
konzeptionelle Vorbereitung für die automatische Generierung von Volltexten für 
die Verzeichnisse der im deutschen Sprachraum erschienenen Drucke des 16., 17. 
und 18. Jahrhunderts im Fokus. Außerdem arbeiten vier Implementierungsprojekte 
daran, OCR-D in bestehende Anwendungen und Infrastrukturen zu integrieren, 
während drei Modulprojekte OCR-D-Werkzeuge weiter optimieren.

Am 30. Juli fand unser Kick-off-Workshop statt, der die Phase III von OCR-D 
einläutete. Das Team des Koordinierungsprojekts gab eine Einführung in die 
Ziele [2] und öffentlichen Kommunikationskanäle [3] von OCR-D, in Status und 
Pläne der OCR-Software [4] sowie der Web-API [5] und in den Umgang mit Ground 
Truth Daten [6]. Zudem gab das Koordinierungsprojekt einen Einblick in die 
bisherige Praxis der Softwareentwicklung in OCR-D [7] mit Möglichkeiten, 
mitzuwirken. Darüber hinaus stellten sich die Implementierungs- und 
Modulprojekte der interessierten Community und unseren Kooperationspartnern in 
kurzen Vorträgen [8] vor.

Die UB Braunschweig, die SLUB Dresden und die UB Mannheim erweitern OCR-D und 
Kitodo für die produktive Massendigitalisierung; die SUB Göttingen und die GWDG 
arbeiten an der Performanceoptimierung, indem sie OCR-D auf einem 
Hochleistungscluster einsetzen; das GEI Braunschweig, das HCI und das ZPD der 
Universität Würzburg werden OCR-D-Werkzeuge in OCR4all verfügbar machen; die 
ULB Sachsen-Anhalt wird OCR-D in ihre 
Open-Source-Massendigitalisierungsinfrastruktur implementieren. Während diese 
Projektpartner an vier Implementierungsszenarien arbeiten, werden drei Projekte 
die OCR-D-Module aus Phase II verbessern: Die UB Mannheim entwickelt ein 
werkspezifisches Training mit Tesseract und Calamari; die JGU Mainz und die FAU 
Erlangen-Nürnberg treiben die Erkennung von Schriftgruppen für besser passende 
OCR-Modelle voran; und das Projekt der SUB Göttingen und der GWDG optimiert die 
Zuverlässigkeit, Durchsuchbarkeit und feingranulare Referenzierung des 
Langzeitarchivs OLA-HD.

Wir freuen uns über Feedback, Anregungen oder Nachfragen jeglicher Art und 
begrüßen Sie gern in unserer Community [3]. In unserem Chat-Kanal, der 
Gitter-Lobby [9], halten wir Sie stets über öffentliche OCR-D-Veranstaltungen 
auf dem Laufenden und Sie können sich mit Projektbeteiligten sowie anderen 
Interessierten austauschen. Weitere Informationen darüber, wie Sie mit OCR-D in 
Kontakt treten und zu OCR-D beitragen können, finden Sie auf unserer Website 
[10]. In der Gitter-Lobby und auf unserer Website werden wir Sie zudem 
informieren, sobald Sie sich in unseren Newsletter eintragen können, der 
demnächst eingerichtet wird.

[1] https://github.com/OCR-D  
[2] https://ocr-d.de/de/about  
[3] https://ocr-d.de/de/community  
[4] https://ocr-d.de/assets/kick-off/spec_core_ocrd_all.pdf  
[5] https://ocr-d.de/assets/kick-off/web-api.pdf  
[6] https://ocr-d.de/assets/kick-off/gt.pdf  
[7] https://ocr-d.de/assets/kick-off/software-development.pdf  
[8] https://ocr-d.de/assets/kick-off/lightning-talks.pdf  
[9] https://gitter.im/OCR-D/Lobby  
[10] https://ocr-d.de/de/ 

Herzliche Grüße
Lena Hinrichsen

--
Lena Hinrichsen, Wissenschaftliche Mitarbeiterin 
Abteilung 1 Neuere Medien, Digitale Bibliothek 
Herzog August Bibliothek, Lessingplatz 1, D 38304 Wolfenbüttel


Listeninformationen unter http://www.inetbib.de.