[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Unicode

Date: Tue, 10 Dec 2002 10:15:42 +0100
From: Matthias Kaun <kaun _at__ sbb.spk-berlin.de>
Subject: Re: Unicode

Liebe Kolleginnen und Kollegen,
wenn auch ein wenig spaet - moechte ich noch ein paar Ergaenzungen zum
Thema Unicode in Katalogen machen.
Die Ostasienabteilung der Staatsbibliothek zu Berlin verzeichnet ihre
chinesischen, japanischen, koreanischen und zentralasiatischen Bestaende
seit 1990 in originalschriftlichen (elektronischen) Katalogen. Fuer die
Identifizierung eines CJK (Chin., Jap., Kor.) Titels ist unbedingt die
Originalschrift notwendig. Auf der Basis nationaler Kodierungen wird der
originalschriftlichen Verzeichnung der Vorzug gegeben: Fuer chin. Material
wird die volksrepublikanische Kodierung GB mit einem Zeichenumfang von etwa
7.000 Zeichen verwendet. Fuer das Jap. wird EUC verwendet. Seit 1995 sind
die Kataloge auch ueber das www recherchierbar; waehrend frueher ein
sogenannter front-end-processor zur Darstellung der Zeichen (2-Byte
kodiert) im Browser notwendig war, sind heute die Browser in der Lage, die
Kodierung zu wechseln (charset=...). Notwendig ist natuerlich ein font zur
Darstellung der Zeichen. So erlauben diese Datenbanken nicht nur eine
originalschriftliche Anzeige, sondern eben auch ein originalschriftliches
Retrieval (http://ead.sbb.spk-berlin.de:8080/cgi-bin/avanti/maske.pl?db=chin).
Mitte diesen Jahres wurden die chin., jap. und zentralasitische Datenbank
nach Unicode (UTF-8) konvertiert und zusammen in einer Datenbank als
Ostasienabteilung union catalogue ueber das www (CHARSET=utf-8) angeboten,
um EINEN Zugriff auf die Bestaende der Abteilung zu bieten
(http://ead.sbb.spk-berlin.de:8080/cgi-bin/avanti-union/search.pl?db=chin1). 
Ohne auf die Besonderheiten der ostasiatischen Schrift eingehen zu wollen,
moechte ich aus dieser Erfahrung hinweisen, dass es fuer bibliothekarische
Datenbanken durchaus von Vorteil sein kann, ein limitiertes Set von Zeichen
zur Verfuegung stehen zu haben, bzw. sich nur einem bestimmten, begrenzten
Set von Zeichen bei der Katalogisierung zu bedienen. 
Ostasiatsische Schriften in Japan, China und Korea teilen sich ein
bestimmtes Set an Zeichen, die aber national anders dargestellt werden
koennen. So sind in Taiwan Langzeichen in der VR China Kurzzeichen in
Gebrauch, die bei einem Retrieval dann auch an verschiedenen Stellen im
Index zu finden waeren; und das bei gleicher Bedeutung. Hier waere ein
unglaublich aufwendiges mapping notwendig; noch schwieriger stellen sich
die Zeichenvarianten dar. Unicode in Bibliothekskatalogen koennte also auf
der einen Seite eine ausgabeorientierte Verbesserung darstellen (ü
[u-umlaut] - ue oder u); fuer die eigentliche Aufgabe, naemlich des Findens
eines Titels, haette Unicode unter diesen Gesichtspunkten keine Bedeutung.
Es wuerde zu einem feature verkommen. 
Auf der anderen Seite haben wir bei der notwendigen Verzeichnung von
Originalschrift im CJK Bereich mit Unicode auf ein Mal eine derartige
Fuelle an Zeichen und Zeichenvarianten zur Verfuegung, die das
originalschriftliche eindeutige Retrieval nahezu unmoeglich gestalten. Wenn
also Unicode in Zukunft auch im bibliothekarischen Bereich Einzug halten
wird, muss darauf geachtet werden, dass ein limitiertes, definiertes Set
von Zeichen Verwendung finden sollte. Dann kann Uncode durchaus seine
Aufgabe erfuellen, naemlich ein sicheres Retrieval zu erlauben und auch in
der Anzeige darzustellen. 
Ein anderer Punkt - eher philosophisch betrachtet - erscheint noch
erwaehnenswert: Wenn Unicode in Bibliothekssystemen zum Standard wird, wie
verfahren wir egentlich dann mit unseren Umlauten, ß (sz) oder den Titeln
aus Osteuropa und dem Vorderen Orient: Muesste hier bei der
originalschriftlichen Verzeichnung wirklich alles dann noch in einer
Transliteration/Transkription aufbereitet werden? Wozu sollte dies
notwendig sein, wenn Unicode Standard waere? Sollte bei den Ueberlegungen
zur Implementierung von Unicode diese Doppelarbeit vermieden werden, wenn
es nicht um ein feature der Anzeige geht? 
Mit den Browsern haben wir im CJK Bereich kaum noch Probleme; Netscape,
Opera und IE bieten die Moeglichkeit unsere Datenbanken zu benutzen;
manchmal ist es notwendig, einen betreffenden font zu installieren; mit
Microsofts IME ist auch die originalschriftliche Suche moeglich. Ansonsten
muss man sich anderer software bedienen, die zum Teil im www frei angeboten
wird. Da die meisten Betreibssysteme in Zukunft wohl mehr und mehr intern
Unicode verwenden, werden die in der Vergangenheit relevanten Probleme
geloest werden. Die Frage bleibt aber, was nimmt man zur Erstellung von
Datensaetzen?!
Schoenen Gruss

Matthias Kaun
Staatsbibliothek zu Berlin - Preussischer Kulturbesitz
Ostasienabteilung III F
http://ead.staatsbibliothek-berlin.de

References:
- Re: Unicode
  - From: Joachim.Meier _at__ ptb.de
- Re: Unicode
  - From: Heidrun Wiesenmueller <wiesenmueller _at__ wlb-stuttgart.de>

Prev by Date: Beschluss des Standardisierungsausschusses vom 27.11.02
Next by Date: DBI-Datenbanken
Previous by thread: Re: Unicode
Next by thread: Unibw Hamburg: Neue Homepage
Index(es):
- Date
- Thread

Listeninformationen unter http://www.inetbib.de.