[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [InetBib] OCR - Plattform



Lieber Herr Mühlberger,

"Transkribus is free". Ist auch der Quellcode unter einer freien
Lizenz zugänglich? Oder ist die Software nur so frei wie Freibier
(vgl. http://www.gnu.org/philosophy/free-sw.html)?

Da zur Zeit die Registrierung auf http://transkribus.eu/ nicht
funktioniert, konnte ich leider nicht selbst nachschauen.

Freundliche Grüße
Stefan Weil


Am 03.11.2015 um 12:29 schrieb Günter Mühlberger:
Liebe KollegInnen und Kollegen,

es ist sehr erfreulich, dass die DFG die Verbesserung der Texterkennung
historischer Schriften systematisch und auf Jahre hinaus gesichert
foerdern wird!

Dazu ein paar kurze Ueberlegungen:

a) Die OCR Erkennung der digitalisierten Bestaende (Stichwort: VD16-19)
ist laengst noch nicht "Standard" in Deutschland. Das bedeutet nicht nur
fuer den Bibliotheksbenutzer sondern auch fuer die Digital Humanities
eine wesentliche Einschraenkung ihrer "Handlungsfreiheit". Auch mit
fehlerhaftem OCR Text lassen sich interessante Forschungsarbeiten im
Bereich Mediengeschichte, Geschichte, Internationale Beziehungen, Gender
Studies, Familienforschung, etc. durchfuehren.

b) Open Source oder kommerzielle Loesungen
Wenn es doch nur so einfach waere! Leider machen die Lizenzkosten fuer
die OCR Erkennung nur einen Teil der Gesamtkosten aus. Das Drumherum,
das Handling der Dateien, der Betrieb der OCR Server, die
unterschiedlichen Sprachen, Alphabete, Dokumententypen, Exportformate,
etc. das sind die eigentlichen Kostentreiber, da mit Personalkosten
verbunden.

c) Forschung und Produktion
Kommerzielle Loesungen wie ABBYY FineReader liegen auch bei schwierigen
historischen Texten oftmals jenseits der 80-90% Zeichengenauigkeit. Das
ist ueblicherweise der Bereich, bei dem ForscherInnen das Interesse an
der Arbeit verlieren, da es dann aus Sicht der Computerwissenschaften
fast nur noch um "Engineering" geht, nicht aber um Grundlagenforschung.
Das "Schicksal" der Open Source Projekte wie Tesseract, Ocropus, etc.
zeigt, dass auch das Entwicklungsteam von Google einige Jahre benoetigte
(tatsaechlich wurde Tesseract als Open Source "Google OCR" 2006
lanciert), um die vorher verwendete Abbyy OCR abloesen zu koennen.
Erwartungen, dass hier die kommenden DFG Projekte, wirklich "alles"
aendern koennen, waeren aus meiner Warte also unrealistisch, bzw. unfair.

d) OCR Plattform
Da verbesserte OCR Algorithmen fuer historische Schriften in der Regel
auf maschinenlernenden Ansaetzen basieren (werden), entsteht leider die
Situation, dass an vielen verschiedenen Stellen "gelernt" wird, d.h.
Modelle fuer die jeweiligen Dokumente vor Ort erzeugt werden, die dann
aber nicht oder nur muehsam von anderen "nachgenutzt" werden koennen.
Aus diesem Grund verfolgen wir in den Projekten tranScriptorium bzw.
READ die Idee einer Virtuellen Forschungsumgebung zur Texterkennung, bei
der Texterkennung im Sinne von "Software as a Service" angeboten wird.
Die dabei entstehenden Ground Truth Daten sollen umgekehrt auch als
Ausgangspunkt fuer die stetige Verbesserung der zugrundeliegenden
Software genutzt werden.
Eine fruehe Betaversion (0.6.6.) von TRANSKRIBUS ist online verfuegbar.
Dort wird auch die in IMPACT weiterentwickelte Frakturerkennung von
ABBYY als kostenfreier Service angeboten. Die Lizenzkosten werden von
der Universitaet Innsbruck bzw. im Rahmen vergangener und bestehender
Projekte uebernommen (ein besonderer Dank geht hier an die SBB als
Koordinator des EU Projekts Europeana Newspapers). Wer also entweder
einige Seiten rasch ausprobieren moechte, oder ernsthaft einige
historische Schriften transkribieren will, findet hier eine allgemein
zugaengliche Infrastruktur. Fuer Rueckmeldungen zur Verbesserung der
Plattform sind wir dankbar.

http://transkribus.eu/

Benutzeranleitung:
http://transkribus.eu/wiki/

Schoene Gruesse,

guenter muehlberger



Listeninformationen unter http://www.inetbib.de.