[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [InetBib] Digitalisierung

Date: Fri, 23 Mar 2018 09:35:51 +0100
From: Stefan Weil via InetBib <inetbib@xxxxxxxxxx>
Subject: Re: [InetBib] Digitalisierung

Am 23.03.2018 um 08:54 schrieb André Davids via InetBib:

Liebe Kolleginnen und Kollegen,
Seit einigen Jahren digitalisieren wir historische Statistiken, wobei wir 
Schwierigkeiten erfahren bei der Texterkennung (OCR) von Tabellen. Bei 
älteren Dokumenten werden Ziffern nicht immer richtig erkannt, sodass wir 
alles im Nachhinein in einem langwierigen Prozess abgleichen müssen.
Bisher werden die Tabellen eingescannt, mit der Software FineReader 
bearbeitet und die Tabellen anschließend in Excel umgewandelt. Diese 
Excel-Tabellen vergleichen wir dann manuell mit dem entsprechenden 
Digitalisat.
Hat irgendjemand Erfahrungen mit dem Digitalisiern von Tabellen? Wie können 
wir  dieses Problem zeitsparender lösen?

Mit freundlichen Grüßen,

André


André Davids
Senior Bibliotheekmedewerker
KU Leuven Bibliotheken Economie en Bedrijfswetenschappen
Naamsestraat 69 - bus 3504
3000 Leuven
andre.davids@xxxxxxxxxxx
tel. + 32 16 32 67 08
bib.kuleuven.be/ebib
[Logo_e-mailhandtekening]



Die Universitätsbibliothek Mannheim digitalisiert gerade historische
Gemeindeverzeichnisse, also vermutlich eine ähnliche Aufgabenstellung:
https://digi.bib.uni-mannheim.de/gemeindeverzeichnisse/. Dabei wurde
bisher ebenfalls ABBYY FineReader verwendet, aber es soll auch Tesseract
4 zum Einsatz kommen.

Haben Sie Beispiele (Bild und ABBYY-Ergebnis), wo die Erkennung
problematisch war? Ich könnte eines mal mit Tesseract 4 testen.

Freundliche Grüße
Stefan Weil

References:
- [InetBib] Digitalisierung
  - From: André Davids via InetBib

Prev by Date: [InetBib] Digitalisierung
Next by Date: [InetBib] Keine Angst vor Zeitungskopien
Previous by thread: [InetBib] Digitalisierung
Next by thread: [InetBib] Digitalisierte Vorlesungsverzeichnisse
Index(es):
- Date
- Thread

Listeninformationen unter http://www.inetbib.de.