[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

OCR-Software fuer (sprach)wissenschaftliche Texte



Datum:  10.11.996

An:     INETBIB
        INETBIB _at__ zb.ub.uni-dortmund.de

An:     LIB-L
        LIB-L _at__ zb.ub.uni-dortmund.de


Von:    Juergen Eger
        eger.warwas _at__ t-online.de



Betreff: OCR-Software fuer (sprach)wissenschaftliche Texte.
         Texterkennung / OCR und Sonderzeichen. OCR und Unicode.
----------------------------------------------------------------

Hallo, liebe INETBIB-lerInnen,
hallo, liebe LIB-LerInnen,

weiss jemand, welche OCR-Applikation (fuer die Windows-Plattform
[Windows 3.x / Windows 95]) besonders geeignet ist zum
Scannen hauptsaechlich wissenschaftlicher fremdsprachlicher Texte,
(oft historische Texte und/oder in nicht-lateinischen Schriftsystemen 
geschriebene)?

Ich wende mich an INETBIB und LIB-L als Diskussionsforen, weil ich vermute, 
dass gerade auch im Bibliotheksbereich solche Fragen eine Rolle spielen und
bislang weder mit OCR-Software noch mit Scannern Erfahrung habe.

Fuer jeden Hinweis zum Thema waere ich dankbar!

Bekanntere OCR-Applikationen sind z.B.:

     - Character Eyes Pro
     - CALERA's M/Serie                                
     - DRS - Developer's Reading System
     - ED-Read 2.1
     - Formiris
     - INDALO-Recognizer
     - OCR
     - Omnipage Direct
     - Omnipage Professional
     - OPTUPUS
     - Paper-Keyboard
     - proLector
     - Read-it! OCR for Windows
     - READIRIS CONNECT
     - Recognita
     - TextBridge
     - WET-OCR
     - WordScan-Plus

Geeignete OCR-Software suche ich zur Digitalisierung vor allem 
sonderzeichenreicher Texte, viele davon in nicht-lateinischen und/oder 
historischen Schriftsystemen geschrieben (Kyrillisch [Kirillica, 
Glagolica], Griechisch [Altgriechisch, Neugriechisch], indische 
Schriftsysteme [z.B. Brahmi, Devanagari, Oriya, Gujarati,
Bengali, Tamil, Telugu, Kannada, Singhalesisch usw.], Hebraeisch,
Arabisch, Japanisch u.v.a.m.).

Besonders willkommen ist mir eine "Universalloesung", hauptsaechlich 
sollen damit aber indo-europaeische Sprachen / Texte verarbeitet werden.

Zur Sonderzeichenverarbeitung fuer mein Arbeitsgebiet (historisch-
vergleichende Sprachwissenschaft) setze ich ueberwiegend 
"UniType International Version 1.71" mit Windows 3.11 ein - 
ein Tool (mit Truetype-Zeichensaetzen, Treibern, "Sprachen-Manager") 
zur Darstellung des Zeichenrepertoires unterschiedlicher Schriftsysteme, 
hauptsaechlich mit Textprozessoren und Dateisystemen / datenbankaehnlichen 
Hilfsmitteln wie z.B. "askSam" (Textverarbeitung mit Datenbankfunktionen) 
-, aber auch eigene, selbstdefinierte Truetype-Sonderzeichensaetze.

Meine Fragen drehen sich hauptsaechlich um die Verarbeitung von 
(ueberwiegend "nicht-standardisierten", also in bekannten 
Zeichensatz-Code-Pages nichtdefinierten) Sonderzeichen mit OCR-Software.

Mir ist bekannt, dass es zahlreiche OCR-Programme gibt; mit meinem 
gegenwaertigen OCR-Erfahrungsstand (sehr gering) kann ich jedoch nicht
beurteilen, welche Programm-Merkmale wirklich wichtig sind.

Wer kennt sich bereits gut mit solch speziellen Fragen zum Thema "OCR"
aus?

- Trainings-Modus

  Besonders wichtig ist mir dabei, dass die entsprechende Software ueber
  einen leistungsfaehigen Trainings-Modus verfuegt (wie etwa "OmniPage"),
  der es erlaubt, Sonderzeichen, die in keiner standardisierten Orthographie
  eines Schriftsystems vorkommen, Ersatzdarstellungen zuzuweisen und/oder
  einen bestimmten (z.B. selbstdefinierten) Truetype- oder PostScript-
  Zeichensatz zu benennen, in dem sie vorkommen.

- Nach Moeglichkeit: Kompatiblitaet mit Unicode / ISO 10646

  Angenehm waere, wenn die OCR-Applikation auch Gebrauch machte von
  Unicode als neuem Industrie-Standard (seit 1993).

- Verarbeitbarkeit nicht-lateinischer Zeichen (und anderer Sonderzeichen,
  einschließlich selbstdefinierter)

Zeichen, die in keinem existierenden Standard definiert sind 
(z.B. auch NICHT im seit 1993 von fuehrenden Software-Herstellern 
definierten neuen Industrie-Standard "Unicode" / ISO 10646), sollen
verarbeitbar sein. 

Mangels existierender Standardisierung vieler Sonderzeichen
in wissenschaftlichen Transliterationen reicht es nicht aus,
wenn eine OCR-Applikation auch "nicht-lateinische"
Zeichen verarbeitet (z.B. Kyrillisch, Griechisch, Hebraeisch, Arabisch,
indische Schriftsysteme wie Devanagari, Bengali, Gujarati, Oriya, 
Tamil, Telugu usw., piktographische Schriftsysteme wie Chinesisch,
Japanisch, Koreanisch usw.). Vielmehr muss auch die Moeglichkeit 
gegeben sein, nicht-standardisierten Zeichen ueber eine Trainerfont-
Erkennung SELBSTDEFINIERTE ERSATZZEICHEN-DARSTELLUNGEN zuzuweisen.

  Beispiel: retroflexes n (des Sanskrit)

Sanskrit wird ueblicherweise in der indischen Devanagari-Schrift 
geschrieben. In der wissenschaftlichen (europaeischen)
Lateinschrift-Transliteration von Sanskrit-Texten werden bei 
sogenannten  "retroflexen" Lauten die entsprechenden
Schriftzeichen der Lateinschrift fuer den ungefaehren Lautwert
verwendet, mit einem untergesetzten Punkt zur Anzeige der Retroflexivitaet:

   retroflexes "n" in lateinschriftlicher Transliteration:


                 oo  oo
                  oo   o 
                  o    o
                  o    o
                  o    o

                    xx
                    xx

Da in keinem existierenden Zeichensatz-Standard
(in wirklich keiner einzigen Code Page!) retroflexe indische 
Laute beruecksichtigt werden, haette ich beim Scannen von Texten, 
in denen solche Transliterationen verwendet werden, eine eigene 
ERSATZDARSTELLUNG zu erzeugen (z.B. "n_" oder "nx" oder "n2" [oder 
irgendeine andere von mir gewaehlte Ersatzdarstellung, die nicht mit
anderen Schriftzeichen bzw. anderen Ersatzdarstellungen kollidiert], 
wobei "_" [underscore]  oder "x" oder "2" in solchen Zeichenkombinationen 
fuer die Retroflexivitaet stuende).

Eine Trainerfont-Erkennung muesste also erlauben, fuer alle Sonderzeichen
von Belang  (d.h. etwas ueber 2.000 Sonderzeichen) alternative 
ERSATZDARSTELLUNGEN festzulegen, wobei dem Anwender die festlegbare Anzahl 
der  Transliterationselemente einer ERSATZDARSTELLUNG selbst ueberlassen 
bleiben muesste (weil z.B. auch polytonisches Altgriechisch keiner 
festgelegten Standardisierung unterliegt, sondern nur [monotonisches] 
Neugriechisch; fuer Altgriechisch in lateinschriftlicher Transliteration 
benoetigt man bei einigen akzenttragenden Sonderzeichen bis zu 4 oder 5 
Elementen in einer Ersatzdarstellung, wenn jedem Zeichenelement in der 
Transliteration ein eigener Transliterationswert zugeordnet werden soll). 

Weiss jemand, ob eine OCR-Applikation ueber eine solche Moeglichkeit
verfuegt, anwenderdefinierte ERSATZDARSTELLUNGEN zu speichern und zu 
verarbeiten und ggfs. auch die Zuordnung selbstdefinierter 
(Truetype-)Zeichensaetze zu entsprechenden nicht-standardisierten Zeichen
zulaesst, in denen die betreffenden Zeichendarstellungen vorkommen?


MfG
Juergen Eger
eger.warwas _at__ t-online.de
+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

 


Listeninformationen unter http://www.inetbib.de.