[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
[InetBib] OCR-D in Phase III: Unsere Projekte und Communityformate
- Date: Mon, 25 Oct 2021 15:05:12 +0200
- From: Lena Hinrichsen via InetBib <inetbib@xxxxxxxxxx>
- Subject: [InetBib] OCR-D in Phase III: Unsere Projekte und Communityformate
Liebe Liste,
seit 2015 arbeitet die DFG-Förderinitiative OCR-D an der Weiterentwicklung von
Verfahren der Optical Character Recognition (OCR) von historischen Drucken und
konnte bereits eine prototypische OCR-Software [1] vorlegen. Diese ist mit
ihrer Vielzahl an verfügbaren Werkzeugen für eine große Bandbreite an
unterschiedlichen Anwendungsszenarien geeignet. In Phase III steht die
konzeptionelle Vorbereitung für die automatische Generierung von Volltexten für
die Verzeichnisse der im deutschen Sprachraum erschienenen Drucke des 16., 17.
und 18. Jahrhunderts im Fokus. Außerdem arbeiten vier Implementierungsprojekte
daran, OCR-D in bestehende Anwendungen und Infrastrukturen zu integrieren,
während drei Modulprojekte OCR-D-Werkzeuge weiter optimieren.
Am 30. Juli fand unser Kick-off-Workshop statt, der die Phase III von OCR-D
einläutete. Das Team des Koordinierungsprojekts gab eine Einführung in die
Ziele [2] und öffentlichen Kommunikationskanäle [3] von OCR-D, in Status und
Pläne der OCR-Software [4] sowie der Web-API [5] und in den Umgang mit Ground
Truth Daten [6]. Zudem gab das Koordinierungsprojekt einen Einblick in die
bisherige Praxis der Softwareentwicklung in OCR-D [7] mit Möglichkeiten,
mitzuwirken. Darüber hinaus stellten sich die Implementierungs- und
Modulprojekte der interessierten Community und unseren Kooperationspartnern in
kurzen Vorträgen [8] vor.
Die UB Braunschweig, die SLUB Dresden und die UB Mannheim erweitern OCR-D und
Kitodo für die produktive Massendigitalisierung; die SUB Göttingen und die GWDG
arbeiten an der Performanceoptimierung, indem sie OCR-D auf einem
Hochleistungscluster einsetzen; das GEI Braunschweig, das HCI und das ZPD der
Universität Würzburg werden OCR-D-Werkzeuge in OCR4all verfügbar machen; die
ULB Sachsen-Anhalt wird OCR-D in ihre
Open-Source-Massendigitalisierungsinfrastruktur implementieren. Während diese
Projektpartner an vier Implementierungsszenarien arbeiten, werden drei Projekte
die OCR-D-Module aus Phase II verbessern: Die UB Mannheim entwickelt ein
werkspezifisches Training mit Tesseract und Calamari; die JGU Mainz und die FAU
Erlangen-Nürnberg treiben die Erkennung von Schriftgruppen für besser passende
OCR-Modelle voran; und das Projekt der SUB Göttingen und der GWDG optimiert die
Zuverlässigkeit, Durchsuchbarkeit und feingranulare Referenzierung des
Langzeitarchivs OLA-HD.
Wir freuen uns über Feedback, Anregungen oder Nachfragen jeglicher Art und
begrüßen Sie gern in unserer Community [3]. In unserem Chat-Kanal, der
Gitter-Lobby [9], halten wir Sie stets über öffentliche OCR-D-Veranstaltungen
auf dem Laufenden und Sie können sich mit Projektbeteiligten sowie anderen
Interessierten austauschen. Weitere Informationen darüber, wie Sie mit OCR-D in
Kontakt treten und zu OCR-D beitragen können, finden Sie auf unserer Website
[10]. In der Gitter-Lobby und auf unserer Website werden wir Sie zudem
informieren, sobald Sie sich in unseren Newsletter eintragen können, der
demnächst eingerichtet wird.
[1] https://github.com/OCR-D
[2] https://ocr-d.de/de/about
[3] https://ocr-d.de/de/community
[4] https://ocr-d.de/assets/kick-off/spec_core_ocrd_all.pdf
[5] https://ocr-d.de/assets/kick-off/web-api.pdf
[6] https://ocr-d.de/assets/kick-off/gt.pdf
[7] https://ocr-d.de/assets/kick-off/software-development.pdf
[8] https://ocr-d.de/assets/kick-off/lightning-talks.pdf
[9] https://gitter.im/OCR-D/Lobby
[10] https://ocr-d.de/de/
Herzliche Grüße
Lena Hinrichsen
--
Lena Hinrichsen, Wissenschaftliche Mitarbeiterin
Abteilung 1 Neuere Medien, Digitale Bibliothek
Herzog August Bibliothek, Lessingplatz 1, D 38304 Wolfenbüttel
Listeninformationen unter http://www.inetbib.de.