[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [InetBib] Alte Drucke und OCR

Date: Mon, 18 May 2020 15:22:31 +0200
From: Klaus Graf via InetBib <inetbib@xxxxxxxxxx>
Subject: Re: [InetBib] Alte Drucke und OCR

Google-Digitalisate sind sehr wohl frei verwendbar, wie aus

https://de.wikisource.org/wiki/Wikisource:Google_Book_Search#Googles_Nutzungsrichtlinien

hervorgeht.

Klaus Graf

On Sun, 17 May 2020 09:36:36 +0200
 Stefan Weil via InetBib <inetbib@xxxxxxxxxx> wrote:

Am 17.05.20 um 07:28 schrieb Heino Speer via InetBib:

Liebe Liste,
ich habe den Eindruck, dass seit einigen Jahren bei der
Digitalisierung von (auch älteren) Druckwerken ein OCR-Programm
mitläuft und automatisch eine mehr/weniger brauchbare Transkription
des Faksimiles liefert. Vor einiger Zeit bekam ich von einer
wissenschaftlichen Bibliothek die Auskunft, dies sei ein Teil der
Leistung, die Google bei Digitalisierungskampagnen erbringe, sie

seien

aber selbst nicht eingebunden.
Weiß jemand, ob dies heute auch noch der Fall ist und welche
OCR-Programme andernfalls von den Bibliotheken eingesetzt werden? Da
ich mich in meinem Webportal (s. die URL's unten) seit Jahren mit

der

Volltextdigitalisierung (rechts-)historischer Quellen beschäftige,
wüßte ich gerne mehr über die Hintergründe. Denn bei allem Nutzen,

den

diese ocr-erzeugten Texte hierfür haben: Die Nachbearbeitung ist

immer

noch äußerst zeitaufwendig und vielleicht gäbe es da ja
Verbesserungsmöglichkeiten.
Mit bestem Dank für jede Auskunft, gerne auch außerhalb der Liste.
Heino Speer


Lieber Herr Speer,

inzwischen gibt es - auch unabhängig von Google - Software, die schon
sehr brauchbare Volltexte für Alte Drucke erzeugen kann.

Das ist genau das Ziel des DFG-Projektes OCR-D (https://ocr-d.de/).

Verwendet werden u. a. folgende Programme:

- ABBYY Finereader (kommerziell)

- Transkribus (kostenpflichtig, nur teilweise offen)

- Calamari, Kraken, Ocropy, Tesseract (Open Source), inzwischen auch
in
Kombination mit OCR-D

Die UB Mannheim hat beispielsweise früher ABBYY verwendet und nimmt
jetzt Tesseract oder OCR-D, da die Erkennungsraten besser sind und
keine
Kosten mehr anfallen. Auch Dienstleister, die bisher vornehmlich ABBYY
angeboten hatten, unterstützen zunehmend Open Source OCR.

Praktische Beispiele finden Sie z. B. hier:

- https://github.com/tesseract-ocr/tesstrain/wiki/GT4HistOCR (OCR für
15. bis 20. Jahrhundert)

- https://github.com/tesseract-ocr/tesstrain/wiki/ (weitere Beispiele
inkl. Handschriften)

Es gibt auch Bibliotheken, die ihre Digitalisierung einschließlich OCR
von Google machen lassen, leider mit dem Ergebnis, dass die
Digitalisate
nicht mehr frei verwendbar sind. Google macht auch ungefragt OCR für
Bilder, die es beim Absuchen von Websites findet.

Mit freundlichen Grüßen

Stefan Weil

Follow-Ups:
- Re: [InetBib] Alte Drucke und OCR
  - From: Stefan Weil via InetBib

References:
- [InetBib] Alte Drucke und OCR
  - From: Heino Speer via InetBib
- Re: [InetBib] Alte Drucke und OCR
  - From: Stefan Weil via InetBib

Prev by Date: [InetBib] Webinar: Förderprogramme und Ausschreibungen verstehen - 19.05.2020
Next by Date: Re: [InetBib] Alte Drucke und OCR
Previous by thread: Re: [InetBib] Alte Drucke und OCR
Next by thread: Re: [InetBib] Alte Drucke und OCR
Index(es):
- Date
- Thread

Listeninformationen unter http://www.inetbib.de.