[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [InetBib] Digitalisierung



Am 23.03.2018 um 08:54 schrieb André Davids via InetBib:
Liebe Kolleginnen und Kollegen,
Seit einigen Jahren digitalisieren wir historische Statistiken, wobei wir 
Schwierigkeiten erfahren bei der Texterkennung (OCR) von Tabellen. Bei 
älteren Dokumenten werden Ziffern nicht immer richtig erkannt, sodass wir 
alles im Nachhinein in einem langwierigen Prozess abgleichen müssen.
Bisher werden die Tabellen eingescannt, mit der Software FineReader 
bearbeitet und die Tabellen anschließend in Excel umgewandelt. Diese 
Excel-Tabellen vergleichen wir dann manuell mit dem entsprechenden 
Digitalisat.
Hat irgendjemand Erfahrungen mit dem Digitalisiern von Tabellen? Wie können 
wir  dieses Problem zeitsparender lösen?

Mit freundlichen Grüßen,

André


André Davids
Senior Bibliotheekmedewerker
KU Leuven Bibliotheken Economie en Bedrijfswetenschappen
Naamsestraat 69 - bus 3504
3000 Leuven
andre.davids@xxxxxxxxxxx
tel. + 32 16 32 67 08
bib.kuleuven.be/ebib
[Logo_e-mailhandtekening]


Die Universitätsbibliothek Mannheim digitalisiert gerade historische
Gemeindeverzeichnisse, also vermutlich eine ähnliche Aufgabenstellung:
https://digi.bib.uni-mannheim.de/gemeindeverzeichnisse/. Dabei wurde
bisher ebenfalls ABBYY FineReader verwendet, aber es soll auch Tesseract
4 zum Einsatz kommen.

Haben Sie Beispiele (Bild und ABBYY-Ergebnis), wo die Erkennung
problematisch war? Ich könnte eines mal mit Tesseract 4 testen.

Freundliche Grüße
Stefan Weil


Listeninformationen unter http://www.inetbib.de.