[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
OCR-Software fuer (sprach)wissenschaftliche Texte
- Date: Sun, 10 Nov 96 18:48 +0100
- From: eger.warwas _at__ t-online.de (Luzia, Juergen Eger-Warwas, Eger)
- Subject: OCR-Software fuer (sprach)wissenschaftliche Texte
Datum: 10.11.996
An: INETBIB
INETBIB _at__ zb.ub.uni-dortmund.de
An: LIB-L
LIB-L _at__ zb.ub.uni-dortmund.de
Von: Juergen Eger
eger.warwas _at__ t-online.de
Betreff: OCR-Software fuer (sprach)wissenschaftliche Texte.
Texterkennung / OCR und Sonderzeichen. OCR und Unicode.
----------------------------------------------------------------
Hallo, liebe INETBIB-lerInnen,
hallo, liebe LIB-LerInnen,
weiss jemand, welche OCR-Applikation (fuer die Windows-Plattform
[Windows 3.x / Windows 95]) besonders geeignet ist zum
Scannen hauptsaechlich wissenschaftlicher fremdsprachlicher Texte,
(oft historische Texte und/oder in nicht-lateinischen Schriftsystemen
geschriebene)?
Ich wende mich an INETBIB und LIB-L als Diskussionsforen, weil ich vermute,
dass gerade auch im Bibliotheksbereich solche Fragen eine Rolle spielen und
bislang weder mit OCR-Software noch mit Scannern Erfahrung habe.
Fuer jeden Hinweis zum Thema waere ich dankbar!
Bekanntere OCR-Applikationen sind z.B.:
- Character Eyes Pro
- CALERA's M/Serie
- DRS - Developer's Reading System
- ED-Read 2.1
- Formiris
- INDALO-Recognizer
- OCR
- Omnipage Direct
- Omnipage Professional
- OPTUPUS
- Paper-Keyboard
- proLector
- Read-it! OCR for Windows
- READIRIS CONNECT
- Recognita
- TextBridge
- WET-OCR
- WordScan-Plus
Geeignete OCR-Software suche ich zur Digitalisierung vor allem
sonderzeichenreicher Texte, viele davon in nicht-lateinischen und/oder
historischen Schriftsystemen geschrieben (Kyrillisch [Kirillica,
Glagolica], Griechisch [Altgriechisch, Neugriechisch], indische
Schriftsysteme [z.B. Brahmi, Devanagari, Oriya, Gujarati,
Bengali, Tamil, Telugu, Kannada, Singhalesisch usw.], Hebraeisch,
Arabisch, Japanisch u.v.a.m.).
Besonders willkommen ist mir eine "Universalloesung", hauptsaechlich
sollen damit aber indo-europaeische Sprachen / Texte verarbeitet werden.
Zur Sonderzeichenverarbeitung fuer mein Arbeitsgebiet (historisch-
vergleichende Sprachwissenschaft) setze ich ueberwiegend
"UniType International Version 1.71" mit Windows 3.11 ein -
ein Tool (mit Truetype-Zeichensaetzen, Treibern, "Sprachen-Manager")
zur Darstellung des Zeichenrepertoires unterschiedlicher Schriftsysteme,
hauptsaechlich mit Textprozessoren und Dateisystemen / datenbankaehnlichen
Hilfsmitteln wie z.B. "askSam" (Textverarbeitung mit Datenbankfunktionen)
-, aber auch eigene, selbstdefinierte Truetype-Sonderzeichensaetze.
Meine Fragen drehen sich hauptsaechlich um die Verarbeitung von
(ueberwiegend "nicht-standardisierten", also in bekannten
Zeichensatz-Code-Pages nichtdefinierten) Sonderzeichen mit OCR-Software.
Mir ist bekannt, dass es zahlreiche OCR-Programme gibt; mit meinem
gegenwaertigen OCR-Erfahrungsstand (sehr gering) kann ich jedoch nicht
beurteilen, welche Programm-Merkmale wirklich wichtig sind.
Wer kennt sich bereits gut mit solch speziellen Fragen zum Thema "OCR"
aus?
- Trainings-Modus
Besonders wichtig ist mir dabei, dass die entsprechende Software ueber
einen leistungsfaehigen Trainings-Modus verfuegt (wie etwa "OmniPage"),
der es erlaubt, Sonderzeichen, die in keiner standardisierten Orthographie
eines Schriftsystems vorkommen, Ersatzdarstellungen zuzuweisen und/oder
einen bestimmten (z.B. selbstdefinierten) Truetype- oder PostScript-
Zeichensatz zu benennen, in dem sie vorkommen.
- Nach Moeglichkeit: Kompatiblitaet mit Unicode / ISO 10646
Angenehm waere, wenn die OCR-Applikation auch Gebrauch machte von
Unicode als neuem Industrie-Standard (seit 1993).
- Verarbeitbarkeit nicht-lateinischer Zeichen (und anderer Sonderzeichen,
einschließlich selbstdefinierter)
Zeichen, die in keinem existierenden Standard definiert sind
(z.B. auch NICHT im seit 1993 von fuehrenden Software-Herstellern
definierten neuen Industrie-Standard "Unicode" / ISO 10646), sollen
verarbeitbar sein.
Mangels existierender Standardisierung vieler Sonderzeichen
in wissenschaftlichen Transliterationen reicht es nicht aus,
wenn eine OCR-Applikation auch "nicht-lateinische"
Zeichen verarbeitet (z.B. Kyrillisch, Griechisch, Hebraeisch, Arabisch,
indische Schriftsysteme wie Devanagari, Bengali, Gujarati, Oriya,
Tamil, Telugu usw., piktographische Schriftsysteme wie Chinesisch,
Japanisch, Koreanisch usw.). Vielmehr muss auch die Moeglichkeit
gegeben sein, nicht-standardisierten Zeichen ueber eine Trainerfont-
Erkennung SELBSTDEFINIERTE ERSATZZEICHEN-DARSTELLUNGEN zuzuweisen.
Beispiel: retroflexes n (des Sanskrit)
Sanskrit wird ueblicherweise in der indischen Devanagari-Schrift
geschrieben. In der wissenschaftlichen (europaeischen)
Lateinschrift-Transliteration von Sanskrit-Texten werden bei
sogenannten "retroflexen" Lauten die entsprechenden
Schriftzeichen der Lateinschrift fuer den ungefaehren Lautwert
verwendet, mit einem untergesetzten Punkt zur Anzeige der Retroflexivitaet:
retroflexes "n" in lateinschriftlicher Transliteration:
oo oo
oo o
o o
o o
o o
xx
xx
Da in keinem existierenden Zeichensatz-Standard
(in wirklich keiner einzigen Code Page!) retroflexe indische
Laute beruecksichtigt werden, haette ich beim Scannen von Texten,
in denen solche Transliterationen verwendet werden, eine eigene
ERSATZDARSTELLUNG zu erzeugen (z.B. "n_" oder "nx" oder "n2" [oder
irgendeine andere von mir gewaehlte Ersatzdarstellung, die nicht mit
anderen Schriftzeichen bzw. anderen Ersatzdarstellungen kollidiert],
wobei "_" [underscore] oder "x" oder "2" in solchen Zeichenkombinationen
fuer die Retroflexivitaet stuende).
Eine Trainerfont-Erkennung muesste also erlauben, fuer alle Sonderzeichen
von Belang (d.h. etwas ueber 2.000 Sonderzeichen) alternative
ERSATZDARSTELLUNGEN festzulegen, wobei dem Anwender die festlegbare Anzahl
der Transliterationselemente einer ERSATZDARSTELLUNG selbst ueberlassen
bleiben muesste (weil z.B. auch polytonisches Altgriechisch keiner
festgelegten Standardisierung unterliegt, sondern nur [monotonisches]
Neugriechisch; fuer Altgriechisch in lateinschriftlicher Transliteration
benoetigt man bei einigen akzenttragenden Sonderzeichen bis zu 4 oder 5
Elementen in einer Ersatzdarstellung, wenn jedem Zeichenelement in der
Transliteration ein eigener Transliterationswert zugeordnet werden soll).
Weiss jemand, ob eine OCR-Applikation ueber eine solche Moeglichkeit
verfuegt, anwenderdefinierte ERSATZDARSTELLUNGEN zu speichern und zu
verarbeiten und ggfs. auch die Zuordnung selbstdefinierter
(Truetype-)Zeichensaetze zu entsprechenden nicht-standardisierten Zeichen
zulaesst, in denen die betreffenden Zeichendarstellungen vorkommen?
MfG
Juergen Eger
eger.warwas _at__ t-online.de
+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
Listeninformationen unter http://www.inetbib.de.