[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[InetBib] OCR - Plattform

Date: Tue, 3 Nov 2015 12:29:03 +0100
From: Günter Mühlberger <guenter.muehlberger@xxxxxxxxxx>
Subject: [InetBib] OCR - Plattform

Liebe KollegInnen und Kollegen,

es ist sehr erfreulich, dass die DFG die Verbesserung der Texterkennunghistorischer Schriften systematisch und auf Jahre hinaus gesichertfoerdern wird!


Dazu ein paar kurze Ueberlegungen:

a) Die OCR Erkennung der digitalisierten Bestaende (Stichwort: VD16-19)ist laengst noch nicht "Standard" in Deutschland. Das bedeutet nicht nurfuer den Bibliotheksbenutzer sondern auch fuer die Digital Humanitieseine wesentliche Einschraenkung ihrer "Handlungsfreiheit". Auch mitfehlerhaftem OCR Text lassen sich interessante Forschungsarbeiten imBereich Mediengeschichte, Geschichte, Internationale Beziehungen, GenderStudies, Familienforschung, etc. durchfuehren.


b) Open Source oder kommerzielle Loesungen

Wenn es doch nur so einfach waere! Leider machen die Lizenzkosten fuerdie OCR Erkennung nur einen Teil der Gesamtkosten aus. Das Drumherum,das Handling der Dateien, der Betrieb der OCR Server, dieunterschiedlichen Sprachen, Alphabete, Dokumententypen, Exportformate,etc. das sind die eigentlichen Kostentreiber, da mit Personalkostenverbunden.


c) Forschung und Produktion

Kommerzielle Loesungen wie ABBYY FineReader liegen auch bei schwierigenhistorischen Texten oftmals jenseits der 80-90% Zeichengenauigkeit. Dasist ueblicherweise der Bereich, bei dem ForscherInnen das Interesse ander Arbeit verlieren, da es dann aus Sicht der Computerwissenschaftenfast nur noch um "Engineering" geht, nicht aber um Grundlagenforschung.Das "Schicksal" der Open Source Projekte wie Tesseract, Ocropus, etc.zeigt, dass auch das Entwicklungsteam von Google einige Jahre benoetigte(tatsaechlich wurde Tesseract als Open Source "Google OCR" 2006lanciert), um die vorher verwendete Abbyy OCR abloesen zu koennen.Erwartungen, dass hier die kommenden DFG Projekte, wirklich "alles"aendern koennen, waeren aus meiner Warte also unrealistisch, bzw. unfair.


d) OCR Plattform

Da verbesserte OCR Algorithmen fuer historische Schriften in der Regelauf maschinenlernenden Ansaetzen basieren (werden), entsteht leider dieSituation, dass an vielen verschiedenen Stellen "gelernt" wird, d.h.Modelle fuer die jeweiligen Dokumente vor Ort erzeugt werden, die dannaber nicht oder nur muehsam von anderen "nachgenutzt" werden koennen.Aus diesem Grund verfolgen wir in den Projekten tranScriptorium bzw.READ die Idee einer Virtuellen Forschungsumgebung zur Texterkennung, beider Texterkennung im Sinne von "Software as a Service" angeboten wird.Die dabei entstehenden Ground Truth Daten sollen umgekehrt auch alsAusgangspunkt fuer die stetige Verbesserung der zugrundeliegendenSoftware genutzt werden.Eine fruehe Betaversion (0.6.6.) von TRANSKRIBUS ist online verfuegbar.Dort wird auch die in IMPACT weiterentwickelte Frakturerkennung vonABBYY als kostenfreier Service angeboten. Die Lizenzkosten werden vonder Universitaet Innsbruck bzw. im Rahmen vergangener und bestehenderProjekte uebernommen (ein besonderer Dank geht hier an die SBB alsKoordinator des EU Projekts Europeana Newspapers). Wer also entwedereinige Seiten rasch ausprobieren moechte, oder ernsthaft einigehistorische Schriften transkribieren will, findet hier eine allgemeinzugaengliche Infrastruktur. Fuer Rueckmeldungen zur Verbesserung derPlattform sind wir dankbar.


http://transkribus.eu/

Benutzeranleitung:
http://transkribus.eu/wiki/

Schoene Gruesse,

guenter muehlberger

Message: 1
Date: Mon, 2 Nov 2015 08:58:23 +0100
From: Elisa Herrmann <herrmann@xxxxxx>
To: "Romeyke, Andreas" <Andreas.Romeyke@xxxxxxxxxxxxxxx>
Cc: inetbib@xxxxxxxxxx
Subject: Re: [InetBib] Projekt zur Weiterentwicklung von OCR-Verfahren
        gestartet
Message-ID: <1325829593-1844@xxxxxxxxxxx>
Content-Type: text/plain; charset="utf-8"

Lieber Herr Romeyken,

(1.) Das  Koordinierungsprojekt baut selbstverständlich auf Arbeitsergebnissen  
der IMPACT-Projekte auf. Das Projekt ImpactOCR endete allerdings 2012,  und einige 
Fragen von damals sind noch offen.
Im Einzelnen werden im Koordinationsprojekt folgende Ziele verfolgt:
     a) Beschreibung der Grundlagen und Module von OCR-Verfahren
     b) die Entwicklung von Richtlinien, Vorschlägen und Konzepten für die 
Umsetzung in die Praxis
     c)  die Entwicklung eines Masterplans auf der Basis der vorhandenen  
nationalbibliographischen Verzeichnisse und Empfehlungen zu  Projektclustern 
für die Phase 2
     d) Beratung und Koordination der Projekte zusammen mit dem Beirat und 
Experten.

Darüberhinaus  sind Entwicklungen des IMPACT-Programms heute teilweise kommerziell  
eingebunden und stehen somit nicht mehr Open Source zur Verfügung.

(2.) Bereits bestehende  Services und Open Source Angebote (z.B. Software, Referenzkorpora) werden  
nachgenutzt bzw. fließen in die Überlegungen mit ein. Dabei werden kommerzielle Anbieter nicht 
außer Acht gelassen, um gemeinsame Lösungen für die Evaluation und Nachnutzung kommerziell 
erstellter Tools zu erarbeiten. Das entsprechende Informationsangebot  aufrecht zu erhalten und zu pflegen 
ist Ziel dieses Vorhabens, hierfür  wurde ein eigenes Arbeitspaket (Nachnutzbarkeit) etabliert.
Die  Anforderungern der DFG nach Interoperabilität, Nachnutzbarkeit,  Verwendung von Open Source 
sowie offenen Schnittstellen, modularer  Aufbau und nicht zuletzt die Berücksichtigung aktueller 
Normen und  Standards werden erfüllt. Alle durch das Vorhaben zustande  gekommenen Ergebnisse 
werden der Fachöffentlichkeit bekannt gemacht und  stehen zur kostenfreien Nachnutzung durch Dritte 
bereit; dies schließt  die umfassende Dokumentation der Ergebnisse mit ein.

(3.) Die Deutsche Forschungsgemeinschaft hat die Projektförderung über einen  
Zeitraum von drei Jahren bewilligt. Die derzeitige Projektphase 1 endet nach 12  Monaten.

Ich hoffe ich konnte Ihre Fragen damit beantworten.

Mit besten Grüßen,
Elisa Herrmann

Projektkoordination OCR-D
Herzog August Bibliothek Wolfenbüttel
Lessingplatz 1
38304 Wolfenbüttel
Tel. +49 5331/808-306
Email herrmann@xxxxxx

  Von:   "Romeyke, Andreas" <Andreas.Romeyke@xxxxxxxxxxxxxxx>
  An:   "inetbib@xxxxxxxxxx" <inetbib@xxxxxxxxxx>
  Gesendet:   30.10.2015 9:33
  Betreff:   Re: [InetBib] Projekt zur Weiterentwicklung von OCR-Verfahren 
gestartet

Hallo,

Könnten Sie bitte ff. Fragen beantworten:

1. Inwiefern unterscheidet sich das Projekt von den Zielstellungen von 
ImpactOCR (http://www.impact-project.eu)
2. Inwieweit werden die Ziele des Projektes mit OpenSource-Software umgesetzt, 
bzw. OpenSource-Community eingebunden, bzw. Nachnutzung sichergestellt
3. Wie sieht der Zeitrahmen aus?

Mit freundlichen Grüßen
With best regards,

Andreas Romeyke


--
Mag. Dr. Guenter Muehlberger
Innsbruck University
Digitisation and Digital Preservation (DEA)
Innrain 52 / 6020 Innsbruck / Austria
Phone: ++43-512-507-8454

http://germanistik.uibk.ac.at/dea/
http://www.literature.at/

Follow-Ups:
- Re: [InetBib] OCR - Plattform
  - From: Stefan Weil

Prev by Date: [InetBib] Stellenausschreibung Systembibliothekar/in E10 UB Frankfurt/M
Next by Date: Re: [InetBib] OCR - Plattform
Previous by thread: [InetBib] OCR von Frakturschrift?
Next by thread: Re: [InetBib] OCR - Plattform
Index(es):
- Date
- Thread

Listeninformationen unter http://www.inetbib.de.