[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
[InetBib] OCR - Plattform
Liebe KollegInnen und Kollegen,
es ist sehr erfreulich, dass die DFG die Verbesserung der Texterkennung
historischer Schriften systematisch und auf Jahre hinaus gesichert
foerdern wird!
Dazu ein paar kurze Ueberlegungen:
a) Die OCR Erkennung der digitalisierten Bestaende (Stichwort: VD16-19)
ist laengst noch nicht "Standard" in Deutschland. Das bedeutet nicht nur
fuer den Bibliotheksbenutzer sondern auch fuer die Digital Humanities
eine wesentliche Einschraenkung ihrer "Handlungsfreiheit". Auch mit
fehlerhaftem OCR Text lassen sich interessante Forschungsarbeiten im
Bereich Mediengeschichte, Geschichte, Internationale Beziehungen, Gender
Studies, Familienforschung, etc. durchfuehren.
b) Open Source oder kommerzielle Loesungen
Wenn es doch nur so einfach waere! Leider machen die Lizenzkosten fuer
die OCR Erkennung nur einen Teil der Gesamtkosten aus. Das Drumherum,
das Handling der Dateien, der Betrieb der OCR Server, die
unterschiedlichen Sprachen, Alphabete, Dokumententypen, Exportformate,
etc. das sind die eigentlichen Kostentreiber, da mit Personalkosten
verbunden.
c) Forschung und Produktion
Kommerzielle Loesungen wie ABBYY FineReader liegen auch bei schwierigen
historischen Texten oftmals jenseits der 80-90% Zeichengenauigkeit. Das
ist ueblicherweise der Bereich, bei dem ForscherInnen das Interesse an
der Arbeit verlieren, da es dann aus Sicht der Computerwissenschaften
fast nur noch um "Engineering" geht, nicht aber um Grundlagenforschung.
Das "Schicksal" der Open Source Projekte wie Tesseract, Ocropus, etc.
zeigt, dass auch das Entwicklungsteam von Google einige Jahre benoetigte
(tatsaechlich wurde Tesseract als Open Source "Google OCR" 2006
lanciert), um die vorher verwendete Abbyy OCR abloesen zu koennen.
Erwartungen, dass hier die kommenden DFG Projekte, wirklich "alles"
aendern koennen, waeren aus meiner Warte also unrealistisch, bzw. unfair.
d) OCR Plattform
Da verbesserte OCR Algorithmen fuer historische Schriften in der Regel
auf maschinenlernenden Ansaetzen basieren (werden), entsteht leider die
Situation, dass an vielen verschiedenen Stellen "gelernt" wird, d.h.
Modelle fuer die jeweiligen Dokumente vor Ort erzeugt werden, die dann
aber nicht oder nur muehsam von anderen "nachgenutzt" werden koennen.
Aus diesem Grund verfolgen wir in den Projekten tranScriptorium bzw.
READ die Idee einer Virtuellen Forschungsumgebung zur Texterkennung, bei
der Texterkennung im Sinne von "Software as a Service" angeboten wird.
Die dabei entstehenden Ground Truth Daten sollen umgekehrt auch als
Ausgangspunkt fuer die stetige Verbesserung der zugrundeliegenden
Software genutzt werden.
Eine fruehe Betaversion (0.6.6.) von TRANSKRIBUS ist online verfuegbar.
Dort wird auch die in IMPACT weiterentwickelte Frakturerkennung von
ABBYY als kostenfreier Service angeboten. Die Lizenzkosten werden von
der Universitaet Innsbruck bzw. im Rahmen vergangener und bestehender
Projekte uebernommen (ein besonderer Dank geht hier an die SBB als
Koordinator des EU Projekts Europeana Newspapers). Wer also entweder
einige Seiten rasch ausprobieren moechte, oder ernsthaft einige
historische Schriften transkribieren will, findet hier eine allgemein
zugaengliche Infrastruktur. Fuer Rueckmeldungen zur Verbesserung der
Plattform sind wir dankbar.
http://transkribus.eu/
Benutzeranleitung:
http://transkribus.eu/wiki/
Schoene Gruesse,
guenter muehlberger
Message: 1
Date: Mon, 2 Nov 2015 08:58:23 +0100
From: Elisa Herrmann <herrmann@xxxxxx>
To: "Romeyke, Andreas" <Andreas.Romeyke@xxxxxxxxxxxxxxx>
Cc: inetbib@xxxxxxxxxx
Subject: Re: [InetBib] Projekt zur Weiterentwicklung von OCR-Verfahren
gestartet
Message-ID: <1325829593-1844@xxxxxxxxxxx>
Content-Type: text/plain; charset="utf-8"
Lieber Herr Romeyken,
(1.) Das Koordinierungsprojekt baut selbstverständlich auf Arbeitsergebnissen
der IMPACT-Projekte auf. Das Projekt ImpactOCR endete allerdings 2012, und einige
Fragen von damals sind noch offen.
Im Einzelnen werden im Koordinationsprojekt folgende Ziele verfolgt:
a) Beschreibung der Grundlagen und Module von OCR-Verfahren
b) die Entwicklung von Richtlinien, Vorschlägen und Konzepten für die
Umsetzung in die Praxis
c) die Entwicklung eines Masterplans auf der Basis der vorhandenen
nationalbibliographischen Verzeichnisse und Empfehlungen zu Projektclustern
für die Phase 2
d) Beratung und Koordination der Projekte zusammen mit dem Beirat und
Experten.
Darüberhinaus sind Entwicklungen des IMPACT-Programms heute teilweise kommerziell
eingebunden und stehen somit nicht mehr Open Source zur Verfügung.
(2.) Bereits bestehende Services und Open Source Angebote (z.B. Software, Referenzkorpora) werden
nachgenutzt bzw. fließen in die Überlegungen mit ein. Dabei werden kommerzielle Anbieter nicht
außer Acht gelassen, um gemeinsame Lösungen für die Evaluation und Nachnutzung kommerziell
erstellter Tools zu erarbeiten. Das entsprechende Informationsangebot aufrecht zu erhalten und zu pflegen
ist Ziel dieses Vorhabens, hierfür wurde ein eigenes Arbeitspaket (Nachnutzbarkeit) etabliert.
Die Anforderungern der DFG nach Interoperabilität, Nachnutzbarkeit, Verwendung von Open Source
sowie offenen Schnittstellen, modularer Aufbau und nicht zuletzt die Berücksichtigung aktueller
Normen und Standards werden erfüllt. Alle durch das Vorhaben zustande gekommenen Ergebnisse
werden der Fachöffentlichkeit bekannt gemacht und stehen zur kostenfreien Nachnutzung durch Dritte
bereit; dies schließt die umfassende Dokumentation der Ergebnisse mit ein.
(3.) Die Deutsche Forschungsgemeinschaft hat die Projektförderung über einen
Zeitraum von drei Jahren bewilligt. Die derzeitige Projektphase 1 endet nach 12 Monaten.
Ich hoffe ich konnte Ihre Fragen damit beantworten.
Mit besten Grüßen,
Elisa Herrmann
Projektkoordination OCR-D
Herzog August Bibliothek Wolfenbüttel
Lessingplatz 1
38304 Wolfenbüttel
Tel. +49 5331/808-306
Email herrmann@xxxxxx
Von: "Romeyke, Andreas" <Andreas.Romeyke@xxxxxxxxxxxxxxx>
An: "inetbib@xxxxxxxxxx" <inetbib@xxxxxxxxxx>
Gesendet: 30.10.2015 9:33
Betreff: Re: [InetBib] Projekt zur Weiterentwicklung von OCR-Verfahren
gestartet
Hallo,
Könnten Sie bitte ff. Fragen beantworten:
1. Inwiefern unterscheidet sich das Projekt von den Zielstellungen von
ImpactOCR (http://www.impact-project.eu)
2. Inwieweit werden die Ziele des Projektes mit OpenSource-Software umgesetzt,
bzw. OpenSource-Community eingebunden, bzw. Nachnutzung sichergestellt
3. Wie sieht der Zeitrahmen aus?
Mit freundlichen Grüßen
With best regards,
Andreas Romeyke
--
Mag. Dr. Guenter Muehlberger
Innsbruck University
Digitisation and Digital Preservation (DEA)
Innrain 52 / 6020 Innsbruck / Austria
Phone: ++43-512-507-8454
http://germanistik.uibk.ac.at/dea/
http://www.literature.at/
Listeninformationen unter http://www.inetbib.de.