[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: [InetBib] OCR - Plattform
Lieber Herr Mühlberger,
vielen Dank für Ihre ausführliche Stellungnahme zu unserem Projekt.
Die von Ihnen vorgebrachten Punkte sind von großer Relevanz für unser Vorhaben
und werden auf jeden Fall in unsere Überlegungen einbezogen.
Aus unserer Sicht stellt die Möglichkeit der Nachnutzung von lokal erstellten
Trainingsmodellen ein wichtiges Desiderat dar. Hilfreich wäre es dabei, dass
alle an einer OCR-Weiterentwicklung Interessierten offen über ihre Erfahrungen
und Entwicklungen informieren und im speziellen Fall der wissenschaftlichen
Öffentlichkeit, wo rechtlich möglich, ihre Trainingsmodelle und/oder Ground
Truth-Daten zur Verfügung stellen. Wir als Koordinierungsprojekt sind dabei
gern behilflich.
Viele Grüße
Kay-Michael Würzner und Sebastian Mangold
für das DFG-Koordinierungsprojekt OCR-D
Günter Mühlberger <guenter.muehlberger@xxxxxxxxxx> 03.11.2015 12:29 >>>
Liebe KollegInnen und Kollegen,
es ist sehr erfreulich, dass die DFG die Verbesserung der Texterkennung
historischer Schriften systematisch und auf Jahre hinaus gesichert
foerdern wird!
Dazu ein paar kurze Ueberlegungen:
a) Die OCR Erkennung der digitalisierten Bestaende (Stichwort: VD16-19)
ist laengst noch nicht "Standard" in Deutschland. Das bedeutet nicht nur
fuer den Bibliotheksbenutzer sondern auch fuer die Digital Humanities
eine wesentliche Einschraenkung ihrer "Handlungsfreiheit". Auch mit
fehlerhaftem OCR Text lassen sich interessante Forschungsarbeiten im
Bereich Mediengeschichte, Geschichte, Internationale Beziehungen, Gender
Studies, Familienforschung, etc. durchfuehren.
b) Open Source oder kommerzielle Loesungen
Wenn es doch nur so einfach waere! Leider machen die Lizenzkosten fuer
die OCR Erkennung nur einen Teil der Gesamtkosten aus. Das Drumherum,
das Handling der Dateien, der Betrieb der OCR Server, die
unterschiedlichen Sprachen, Alphabete, Dokumententypen, Exportformate,
etc. das sind die eigentlichen Kostentreiber, da mit Personalkosten
verbunden.
c) Forschung und Produktion
Kommerzielle Loesungen wie ABBYY FineReader liegen auch bei schwierigen
historischen Texten oftmals jenseits der 80-90% Zeichengenauigkeit. Das
ist ueblicherweise der Bereich, bei dem ForscherInnen das Interesse an
der Arbeit verlieren, da es dann aus Sicht der Computerwissenschaften
fast nur noch um "Engineering" geht, nicht aber um Grundlagenforschung.
Das "Schicksal" der Open Source Projekte wie Tesseract, Ocropus, etc.
zeigt, dass auch das Entwicklungsteam von Google einige Jahre benoetigte
(tatsaechlich wurde Tesseract als Open Source "Google OCR" 2006
lanciert), um die vorher verwendete Abbyy OCR abloesen zu koennen.
Erwartungen, dass hier die kommenden DFG Projekte, wirklich "alles"
aendern koennen, waeren aus meiner Warte also unrealistisch, bzw. unfair.
d) OCR Plattform
Da verbesserte OCR Algorithmen fuer historische Schriften in der Regel
auf maschinenlernenden Ansaetzen basieren (werden), entsteht leider die
Situation, dass an vielen verschiedenen Stellen "gelernt" wird, d.h.
Modelle fuer die jeweiligen Dokumente vor Ort erzeugt werden, die dann
aber nicht oder nur muehsam von anderen "nachgenutzt" werden koennen.
Aus diesem Grund verfolgen wir in den Projekten tranScriptorium bzw.
READ die Idee einer Virtuellen Forschungsumgebung zur Texterkennung, bei
der Texterkennung im Sinne von "Software as a Service" angeboten wird.
Die dabei entstehenden Ground Truth Daten sollen umgekehrt auch als
Ausgangspunkt fuer die stetige Verbesserung der zugrundeliegenden
Software genutzt werden.
Eine fruehe Betaversion (0.6.6.) von TRANSKRIBUS ist online verfuegbar.
Dort wird auch die in IMPACT weiterentwickelte Frakturerkennung von
ABBYY als kostenfreier Service angeboten. Die Lizenzkosten werden von
der Universitaet Innsbruck bzw. im Rahmen vergangener und bestehender
Projekte uebernommen (ein besonderer Dank geht hier an die SBB als
Koordinator des EU Projekts Europeana Newspapers). Wer also entweder
einige Seiten rasch ausprobieren moechte, oder ernsthaft einige
historische Schriften transkribieren will, findet hier eine allgemein
zugaengliche Infrastruktur. Fuer Rueckmeldungen zur Verbesserung der
Plattform sind wir dankbar.
http://transkribus.eu/
Benutzeranleitung:
http://transkribus.eu/wiki/
Schoene Gruesse,
guenter muehlberger
Message: 1
Date: Mon, 2 Nov 2015 08:58:23 +0100
From: Elisa Herrmann <herrmann@xxxxxx>
To: "Romeyke, Andreas" <Andreas.Romeyke@xxxxxxxxxxxxxxx>
Cc: inetbib@xxxxxxxxxx
Subject: Re: [InetBib] Projekt zur Weiterentwicklung von OCR-Verfahren
gestartet
Message-ID: <1325829593-1844@xxxxxxxxxxx>
Content-Type: text/plain; charset="utf-8"
Lieber Herr Romeyken,
(1.) Das Koordinierungsprojekt baut selbstverständlich auf
Arbeitsergebnissen der IMPACT-Projekte auf. Das Projekt ImpactOCR endete
allerdings 2012, und einige Fragen von damals sind noch offen.
Im Einzelnen werden im Koordinationsprojekt folgende Ziele verfolgt:
a) Beschreibung der Grundlagen und Module von OCR-Verfahren
b) die Entwicklung von Richtlinien, Vorschlägen und Konzepten für die
Umsetzung in die Praxis
c) die Entwicklung eines Masterplans auf der Basis der vorhandenen
nationalbibliographischen Verzeichnisse und Empfehlungen zu Projektclustern
für die Phase 2
d) Beratung und Koordination der Projekte zusammen mit dem Beirat und
Experten.
Darüberhinaus sind Entwicklungen des IMPACT-Programms heute teilweise
kommerziell eingebunden und stehen somit nicht mehr Open Source zur
Verfügung.
(2.) Bereits bestehende Services und Open Source Angebote (z.B. Software,
Referenzkorpora) werden nachgenutzt bzw. fließen in die Überlegungen mit
ein. Dabei werden kommerzielle Anbieter nicht außer Acht gelassen, um
gemeinsame Lösungen für die Evaluation und Nachnutzung kommerziell erstellter
Tools zu erarbeiten. Das entsprechende Informationsangebot aufrecht zu
erhalten und zu pflegen ist Ziel dieses Vorhabens, hierfür wurde ein eigenes
Arbeitspaket (Nachnutzbarkeit) etabliert.
Die Anforderungern der DFG nach Interoperabilität, Nachnutzbarkeit,
Verwendung von Open Source sowie offenen Schnittstellen, modularer Aufbau
und nicht zuletzt die Berücksichtigung aktueller Normen und Standards werden
erfüllt. Alle durch das Vorhaben zustande gekommenen Ergebnisse werden der
Fachöffentlichkeit bekannt gemacht und stehen zur kostenfreien Nachnutzung
durch Dritte bereit; dies schließt die umfassende Dokumentation der
Ergebnisse mit ein.
(3.) Die Deutsche Forschungsgemeinschaft hat die Projektförderung über einen
Zeitraum von drei Jahren bewilligt. Die derzeitige Projektphase 1 endet nach
12 Monaten.
Ich hoffe ich konnte Ihre Fragen damit beantworten.
Mit besten Grüßen,
Elisa Herrmann
Projektkoordination OCR-D
Herzog August Bibliothek Wolfenbüttel
Lessingplatz 1
38304 Wolfenbüttel
Tel. +49 5331/808-306
Email herrmann@xxxxxx
Von: "Romeyke, Andreas" <Andreas.Romeyke@xxxxxxxxxxxxxxx>
An: "inetbib@xxxxxxxxxx" <inetbib@xxxxxxxxxx>
Gesendet: 30.10.2015 9:33
Betreff: Re: [InetBib] Projekt zur Weiterentwicklung von OCR-Verfahren
gestartet
Hallo,
Könnten Sie bitte ff. Fragen beantworten:
1. Inwiefern unterscheidet sich das Projekt von den Zielstellungen von
ImpactOCR (http://www.impact-project.eu)
2. Inwieweit werden die Ziele des Projektes mit OpenSource-Software
umgesetzt, bzw. OpenSource-Community eingebunden, bzw. Nachnutzung
sichergestellt
3. Wie sieht der Zeitrahmen aus?
Mit freundlichen Grüßen
With best regards,
Andreas Romeyke
--
Mag. Dr. Guenter Muehlberger
Innsbruck University
Digitisation and Digital Preservation (DEA)
Innrain 52 / 6020 Innsbruck / Austria
Phone: ++43-512-507-8454
http://germanistik.uibk.ac.at/dea/
http://www.literature.at/
Listeninformationen unter http://www.inetbib.de.