[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: [InetBib] Alte Drucke und OCR
- Date: Sun, 17 May 2020 09:36:36 +0200
- From: Stefan Weil via InetBib <inetbib@xxxxxxxxxx>
- Subject: Re: [InetBib] Alte Drucke und OCR
Am 17.05.20 um 07:28 schrieb Heino Speer via InetBib:
Liebe Liste,
ich habe den Eindruck, dass seit einigen Jahren bei der
Digitalisierung von (auch älteren) Druckwerken ein OCR-Programm
mitläuft und automatisch eine mehr/weniger brauchbare Transkription
des Faksimiles liefert. Vor einiger Zeit bekam ich von einer
wissenschaftlichen Bibliothek die Auskunft, dies sei ein Teil der
Leistung, die Google bei Digitalisierungskampagnen erbringe, sie seien
aber selbst nicht eingebunden.
Weiß jemand, ob dies heute auch noch der Fall ist und welche
OCR-Programme andernfalls von den Bibliotheken eingesetzt werden? Da
ich mich in meinem Webportal (s. die URL's unten) seit Jahren mit der
Volltextdigitalisierung (rechts-)historischer Quellen beschäftige,
wüßte ich gerne mehr über die Hintergründe. Denn bei allem Nutzen, den
diese ocr-erzeugten Texte hierfür haben: Die Nachbearbeitung ist immer
noch äußerst zeitaufwendig und vielleicht gäbe es da ja
Verbesserungsmöglichkeiten.
Mit bestem Dank für jede Auskunft, gerne auch außerhalb der Liste.
Heino Speer
Lieber Herr Speer,
inzwischen gibt es - auch unabhängig von Google - Software, die schon
sehr brauchbare Volltexte für Alte Drucke erzeugen kann.
Das ist genau das Ziel des DFG-Projektes OCR-D (https://ocr-d.de/).
Verwendet werden u. a. folgende Programme:
- ABBYY Finereader (kommerziell)
- Transkribus (kostenpflichtig, nur teilweise offen)
- Calamari, Kraken, Ocropy, Tesseract (Open Source), inzwischen auch in
Kombination mit OCR-D
Die UB Mannheim hat beispielsweise früher ABBYY verwendet und nimmt
jetzt Tesseract oder OCR-D, da die Erkennungsraten besser sind und keine
Kosten mehr anfallen. Auch Dienstleister, die bisher vornehmlich ABBYY
angeboten hatten, unterstützen zunehmend Open Source OCR.
Praktische Beispiele finden Sie z. B. hier:
- https://github.com/tesseract-ocr/tesstrain/wiki/GT4HistOCR (OCR für
15. bis 20. Jahrhundert)
- https://github.com/tesseract-ocr/tesstrain/wiki/ (weitere Beispiele
inkl. Handschriften)
Es gibt auch Bibliotheken, die ihre Digitalisierung einschließlich OCR
von Google machen lassen, leider mit dem Ergebnis, dass die Digitalisate
nicht mehr frei verwendbar sind. Google macht auch ungefragt OCR für
Bilder, die es beim Absuchen von Websites findet.
Mit freundlichen Grüßen
Stefan Weil
Listeninformationen unter http://www.inetbib.de.