[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: [InetBib] Digitalisierung
- Date: Fri, 23 Mar 2018 09:35:51 +0100
- From: Stefan Weil via InetBib <inetbib@xxxxxxxxxx>
- Subject: Re: [InetBib] Digitalisierung
Am 23.03.2018 um 08:54 schrieb André Davids via InetBib:
Liebe Kolleginnen und Kollegen,
Seit einigen Jahren digitalisieren wir historische Statistiken, wobei wir
Schwierigkeiten erfahren bei der Texterkennung (OCR) von Tabellen. Bei
älteren Dokumenten werden Ziffern nicht immer richtig erkannt, sodass wir
alles im Nachhinein in einem langwierigen Prozess abgleichen müssen.
Bisher werden die Tabellen eingescannt, mit der Software FineReader
bearbeitet und die Tabellen anschließend in Excel umgewandelt. Diese
Excel-Tabellen vergleichen wir dann manuell mit dem entsprechenden
Digitalisat.
Hat irgendjemand Erfahrungen mit dem Digitalisiern von Tabellen? Wie können
wir dieses Problem zeitsparender lösen?
Mit freundlichen Grüßen,
André
André Davids
Senior Bibliotheekmedewerker
KU Leuven Bibliotheken Economie en Bedrijfswetenschappen
Naamsestraat 69 - bus 3504
3000 Leuven
andre.davids@xxxxxxxxxxx
tel. + 32 16 32 67 08
bib.kuleuven.be/ebib
[Logo_e-mailhandtekening]
Die Universitätsbibliothek Mannheim digitalisiert gerade historische
Gemeindeverzeichnisse, also vermutlich eine ähnliche Aufgabenstellung:
https://digi.bib.uni-mannheim.de/gemeindeverzeichnisse/. Dabei wurde
bisher ebenfalls ABBYY FineReader verwendet, aber es soll auch Tesseract
4 zum Einsatz kommen.
Haben Sie Beispiele (Bild und ABBYY-Ergebnis), wo die Erkennung
problematisch war? Ich könnte eines mal mit Tesseract 4 testen.
Freundliche Grüße
Stefan Weil
Listeninformationen unter http://www.inetbib.de.