[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: [InetBib] deskew-Software zum "Geraderücken" gescannter Seiten
- Date: Thu, 9 Apr 2020 11:40:24 +0200
- From: Elisabeth Engl via InetBib <inetbib@xxxxxxxxxx>
- Subject: Re: [InetBib] deskew-Software zum "Geraderücken" gescannter Seiten
Lieber Herr Roth-Steiner,
im DFG-geförderten Projekt OCR-D beschäftigen wir uns unter anderem intensiv
mit dem Thema Bildoptimierung. Die Kollegen vom CIS in München haben dazu
gemeinsam mit der ASV der Universität Leipzig die bekannte, quelloffene
OCR-Software OCRopus modularisiert und modernisiert, so dass ein separater
Prozessor für die Bildbegradigung (Deskewing) zur Verfügung steht. Wie alle
Werkzeuge, die innerhalb von OCR-D entwickelt werden, nutzt auch dieser die
ocrd-Workflowengine, die für die Verwendung auf der Linux-Kommandozeile
konzipiert ist. Eingabe für ocrd ist immer eine METS-Datei, die die zu
bearbeitenden Dateien in einzelnen fileGroup-Elementen verzeichnet. Jeder
Prozessoraufruf hat eine kanonische Struktur:ocrd-processor -I
Eingabe-fileGroup -O Ausgabe-fileGroup -p Parameter mets.xml
Der Prozessor für das Deskewing, der Bestandteil von ocrd_cis ist, heißt
ocrd-cis-ocropy-deskew. Es ist uns bewusst, dass ocrd für Ihren Anwendungsfall
einen gewissen Overhead mitbringt, sind aber überzeugt, dass sich der
Mehraufwand der Einarbeitung in das Ökosystem lohnt. Neben dem Deskewing haben
Sie so die Möglichkeit, weitere Bildoptimierungsprozesse (z.B. Despeckling
oder Dewarping) auf die gleiche Weise anzuwenden und so Ihre Digitalisate
optimal für die Texterkennung vorzubereiten. Zögern Sie nicht, bei uns
nachzufragen, z.B. über unseren öffentlichen Chat unter
https://gitter.im/OCR-D/Lobby.
Beste Grüße und viel Erfolg mit den OCR-D-Werkzeugen
Elisabeth Engl (HAB Wolfenbüttel)
Von: "Roth-Steiner, Roland via InetBib" <inetbib@xxxxxxxxxx>
An: "inetbib@xxxxxxxxxx" <inetbib@xxxxxxxxxx>
Gesendet: 09.04.2020 8:48
Betreff: [InetBib] deskew-Software zum "Geraderücken" gescannter Seiten
Liebe Liste,
im Rahmen eines Zeitungs-OCR-Projektes sind wir auf der Suche nach einer
Software, die automatisiert gescannte bzw. fotografierte Buchseiten
"geraderückt" - also Verzerrungen / Wölbung etc. ausgleicht (im Fachjargon als
"deskew" bezeichnet).
Am liebsten etwas, was unter einem aktuellen Linux in eine Batch-Verarbeitung
eingebunden werden kann.
Danke für Hinweise, Erfahrungen, Links etc.
LG
.......................................
Roland Roth-Steiner
M.Sc. Wirtsch.-Inf., Dipl.-Bibl.
. Univ.- und Landesbibliothek
... Informationstechnologie,
... Forschung + Entwicklung
. Magdalenenstr. 8, 64289 Darmstadt
+49 (0)6151 16-76280
.......................................
Listeninformationen unter http://www.inetbib.de.