[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Rechtschreib-Debakel: Beispiele+Vorschlaege
Rechtschreib-Debakel in den Katalogen [Laenge: 396 Zeilen]
Beispiele und neue Vorschlaege
-------------------------------------
Gegen die Probleme, die in unseren Datenbanken durch die Rechtschreibreform
zu erwarten sind, wurden in der letzten Woche maechtige Geschuetze aufge-
fahren: Vorschlaege wurden angedacht zur Konstruktion und Institutionali-
sierung von Konkordanzdateien, wobei dann auch Schreibvarianten von insbes.
englischen Woertern in die Ueberlegung einbezogen wurden.
Eine erste Stellungnahme mehr grundsaetzlicher Natur zu diesen Vorschlaegen
habe ich mir am Freitag schon erlaubt, jetzt geht es mir nochmals um die
Substanz der Aenderungen durch die Rechtschreibreform. Es wird sich zeigen,
welche Probleme sich bei genauerem Hinsehen daraus fuer eine Woerterbuch-
loesung ergeben.
Es wird sich auch zeigen, dass groessere Mengen von Faellen auch ganz anders
geloest werden koennen, und zwar mit viel geringerem Aufwand. Am Schluss wird
eine Drei-Komponenten-Verfahren vorgeschlagen, das mit relativ geringem
Aufwand auskommt - im Vergleich zu den "schweren Geschuetzen" eher eine
Schrotflinte. Doch eine Tatsache bleibt bestehen: unsere Daten werden ab
sofort weiter "verunreinigt" (d.h. die Inkonsistenz steigt staerker als
bisher). Im Ausland wird man wohl keine der Loesungen, die wir uns ausdenken
moegen, nachvollziehen. Das bedeutet, dass deutsche Buecher in der Welt
(noch) schwieriger auffindbar werden als vor der Reform - spaetestens dann,
wenn die nachwachsende Generation das "neue" Deutsch gelernt hat und damit
auf die Kataloge losgeht.
Die Rede ist hier nur von KATALOGsytemen. Ueber Suchmaschinen und Volltext-
systeme moegen andere nachdenken, die dafuer mehr Kompetenz besitzen.
(Das Wortgut in Katalogen ist ueberwiegend Titel- und Schlagwortmaterial,
und dieses besteht meistenteils aus Nominalphrasen und unterliegt einer
gewissen intellektuellen Kontrolle! Bei Volltextdaten, auch schon bei
Abstracts, ist das anders: es treten Satzkonstrukte auf und viel mehr
unkontrolliertes, auch irrelevantes oder gar irrefuehrendes, Vokabular.)
Unkritisch fuer OPACs sind Gross-/Kleinschreibung, Kommasetzung, Akzente,
Silbentrennung, "ss" statt scharfem s. Das alles verkraften unsere Systeme
schon seit jeher. Das Thema Umlaute, nebenbei bemerkt, wird durch die
Reform nicht beruehrt; man kann dazu auf ein von der Regelwerkskon-
ferenz angenommenes Gutachten verweisen ("Zur Ordnung und Codierung der
Umlautbuchstaben", Mai 1998):
www.biblio.tu-bs.de/allegro/formate/umlaut.htm
Spuerbare Effekte enstehen nur durch die Aenderungen in den Bereichen
A. Zusammen-/Getrennt-/Bindestrichschreibungen
B. Wortstamm-Aenderungen
C. Dreifach- statt Doppelbuchstaben
D. Eindeutschung der Schreibweisen
Dazu folgt jeweils eine Liste mit Beispielen.
Links ist die Anzahl Eintraege angegeben, die im zentralen Katalog des
GBV (Goettingen, ca. 12 Mio. Datensaetze) bzw. im OPAC der UB Braunschweig
(400.000 Eintraege) zu den Woertern zu finden sind. Fuer beide Datenbanken
ist allerdings nicht bekannt, wieviele deutsche Titel sie enthalten.
Es sind immer auch die flektierten Formen (Genitiv, Dativ, Plural...) mit
beruecksichtigt, ferner, soweit moeglich, Zusammensetzungen mit anderen
Woertern, wobei die hier genannten den ersten Teil bilden. Die anderen,
wo also die hier aufgefuehrten Woerter hinter einem anderen in einer
Verbindung stehen, konnten nicht ermittelt werden! (Z.B. lungenkrebs-
erregend, leichtmetallverarbeitend, Baustop, Zechenstillegung...)
Fuer Katalogisierungs-Laien: Die Listen bedeuten keinesfalls, dass nur
diese Eintraege alle zu aendern waeren, und damit waer's dann getan!
Man kann nicht davon sprechen, die Kataloge "auf die neue Rechtschreibung
umzustellen." NICHTS darf geaendert werden, denn die Woerter stehen so in
den Buechern, sind deshalb auch in allen Bibliographien so zitiert,
muessen daher so katalogisiert werden, damit sie auch so gefunden werden
koennen. Dieses Prinzip heisst "Vorlagentreue" und ist ein Grundpfeiler
der Katalogisierung. Ohne dieses Prinzip haette man grosse Probleme mit
dem Datenaustausch und der Verbundkatalogisierung, ganz besonders im
Austausch mit dem Ausland. Die Daten, so wie sie jetzt sind, muessen so
bleiben fuer alle voraussehbare Zeit.
Und genau daraus erwaechst das Debakel: neue Buchtitel werden neue Schreib-
weisen enthalten und muessen konsequent auch so erfasst werden. Damit
entstehen neue Eintraege an anderen Stellen in den Registern, also
Inkonsistenzen, die sich progressiv immer haeufiger auf die Such-
ergebnisse auswirken werden. Immer mehr wird man an diese Moeglichkeit
denken muessen, d.h. man wird die alte Rechtschreibung auf keinen Fall
verlernen duerfen! Von Bibliothekaren kann man das vielleicht verlangen
(obwohl sie dafuer keine Erschwerniszulage bekommen werden), aber vom
Publikum und von Auslaendern? Die werden in wenigen Jahren fast nur noch
die neuen Schreibungen als Suchwoerter eingeben.
A. Zusammen-/Getrennt-/Bindestrichschreibungen
----------------------------------------------
Kritisch sind nur die Faelle, die vorher zusammen und jetzt getrennt
geschrieben werden oder umgekehrt, denn Bindestrichwoerter konnten
auch bisher schon doppelt indexiert werden, damit man sie als Ganzwort
wie auch beide Teile einzeln finden kann. Diese kritischen Faelle sind
mit 'x' am linken Rand markiert.
alt: neu:
115 7 afro-amerikanisch afroamerikanisch
x 215 22 alleinerziehend allein erziehend
x 111 10 allgemeingültig allgemein gültig
x 593 24 allgemeinverstaendlich allgemein verstaendlich
56 3 altberliner alt-berliner
x 36 -- andersdenkend anders denkend
504 19 anglo-amerikanisch angloamerikanisch
x ~50 3 Cash flow Cashflow
x 19 5 datenverarbeitend Daten verarbeitend
x 14 4 duennbesiedelt duenn besiedelt
x 17 1 eisenverarbeitend Eisen verarbeitend
x 16 1 eislaufen Eis laufen
x 8 1 erdölexportierend Erdöl exportierend
x 39 2 ernstgemeint ernst gemeint
x ~50 1 Fast food Fastfood
~200 11 Feedback *Feed-back
x 36 1 fleischfressend Fleisch fressend
x 9 2 getrenntlebend getrennt lebend
x -- gutunterrichtet gut unterrichtet
x 17 1 hilfesuchend Hilfe suchend
x 20 2 Joint-Venture Joint Venture oder Jointventure
x 26 10 krebserregend Krebs erregend
x 249 14 leichtverstaendlich leicht verstaendlich
x 465 19 metallverarbeitend Metall verarbeitend
45 3 Midlife-crisis *Midlifecrisis [engl.: mid-life
crisis!]
x ?? 20 New Age *Newage
x 28 6 nichtleitend nicht leitend
x 3974 810 nichtlinear *nicht linear
x 193 21 nichtrostend nicht rostend
x 2 -- nichtssagend nichts sagend
x 87 4 notleidend Not leidend
x 222 26 radfahren Rad fahren
x 49 -- Safer Sex *Safersex
5 -- Schnee-Eule Schneeeule
484 20 Science-fiction Sciencefiction
x 1 -- vielbefahren viel befahren
1662 35 100jaehrig 100-jaehrig [gilt fuer alle Zahlen]
x 4 1 zulasten zu Lasten
x 524 9 zuviel zu viel
Die mit * gekennzeichneten Woerter duerfen auf beide Arten geschrieben
werden.
Einige dieser Beispiele stehen stellvertretend fuer eine Reihe von anderen
Woertern, die in gleicher Weise veraendert werden (leichtverderblich,
kunststoffverarbeitend, ekelerregend, ...) Ausserdem sind jeweils die
flektierten Formen mit zu beruecksichtigen.
Will man dieser Problemgruppe mit einer Woerterbuchmethode begegnen, wird
es schwierig: die neuen Schreibweisen bestehen oft aus zwei Woertern, das
ist ja gerade die Neuerung.
Was der Mensch leicht aus dem Kontext als zusammengehoerig erkennt, ist
fuer den Computer sehr viel schwieriger als eine Einzelwortverarbeitung.
Ein Sonderproblem sind Verbindungen mit "nicht...", davon treten allein im
Katalog der UB Braunschweig weit ueber 1000 auf, und nicht selten
sind das hochsignifikante Woerter, die man doch gerne finden koennen
wuerde. Die Neuregelung schreibt fuer "nicht"-Woerter vor: getrennt,
wenn ein Partizip folgt (nicht rostend), aber beide Schreibungen sind
zulaessig, wenn ein Adjektiv folgt (nicht linear oder nichtlinear).
Die Woerterbuchsoftware, wollte man sie denn entwickeln, duerfte sich
also nicht auf einen Wortvergleich beschraenken, sie muesste bei be-
stimmten Woertern das nachfolgende mit heranziehen, besonders bei
"nicht". Jede neue solche Kombination, und bei Dissertationen z.B. gibt
es immer wieder neue, muesste intellektuell geprueft werden: ob es wirlich
eine Wortkombination ist und ob sie wohl frueher zusammen geschrieben
worden waere!
Die "nicht"-Probleme sind jedoch nicht neu: wir haben schon jetzt
manchmal alle drei moeglichen Schreibungen, z.B. bei "nicht thermisch".
Bindestrich-"nicht"-Woerter treten in Braunschweig 316mal auf.
Ohne Woerterbuchsoftware koennte das Getrennschreibungsproblem am besten
durch ein System geloest werden, das einen "Nachbarschaftsoperator" hat
oder mindestens in der Lage ist, Kombinationen von Woertern aufzufinden,
die direkt aufeinander folgen. Man muss dann nur beim Suchen daran denken,
dass man diese Option benutzt UND dass es aeltere, zusammengeschriebene
Faelle geben kann.
B. Wortstamm-Änderungen
-----------------------
Kritisch sind nur die Faelle, die vorher zusammen und jetzt getrennt
geschrieben werden oder umgekehrt, denn Bindestrichwoerter konnten
auch bisher schon doppelt indexiert werden, damit man sie als Ganzwort
wie auch beide Teile einzeln finden kann. Diese kritischen Faelle sind
mit 'x' am linken Rand markiert.
Durch ... ist angedeutet, dass es in diesen Faellen etliche Eintraege gibt,
die mit dem betreffenden Wort beginnen.
alt: neu:
11 2 aufgerauht aufgeraut
934 31 essentiell *essenziell
1326 500+ differential/ell... *differenzial/ell...
179 23 existentiell *existenziell
179 4 Delphin *Delfin
331 22 Facette *Fassette
44 4 fritier... frittier...
229 1 Greuel Graeuel
110 1 Joghurt *Jogurt
20 -- Justitiar *Justiziar
94 -- Kaenguruh Kaenguru
77 1 numerieren/ung... nummerieren/ung...
451 11 Panther *Panter
127 21 Plazieren/ung Platzieren/ung
3000+ 300+ Potential/ell potenzial/ell
1106 72 rauh... rau...
8 2 rueckwaerts... rueckwaerts ...
62 6 schwachbe... schwach be...
3016 115 selbstaendig... *selbststaendig...
439 63 sequentiell... sequenziell...
100+ -- Spaghetti *Spagetti
80+ 6 stengel Staengel
10 -- Steptanz Stepptanz
?? 2 Stop Stopp
147 6 Stukkateur/tur Stuckateur/tur
39 -- substantiell *substanziell
9 -- Thunfisch *Tunfisch
9999+ 193 Tip/Tips Tipp/Tipps [viele engl. Titel!]
159 3 Trekking *Trecking
163 10 unselbstaendig *unselbststaendig
87 8 verselbstaendigen *verselbststaendigen
19 1 Zierat Zierrat
Gerade bei den hochfrequenten Woertern Tipps und Potential gibt
es auch noch zahlreiche Komposita, in denen sie den zweiten Teil bilden
(Innovationspotential, Supertips, Geheimtips...)
C. Dreifach- statt Doppelbuchstaben
-----------------------------------
Den Loewenanteil stellt hier die oft zitierte Schiffahrt, zumal sie
auch noch in Verbindungen vorkommt (Binnenschiffahrt, ...). Das gilt
aber auch fuer andere: Leicht-, Hart-, Edelmetalllegierung.
alt: neu:
6 -- Atommuellager(ung) Atommuelllager(ung)
32 -- Ballettaenzer/in/tage Balletttaenzer/in, Balletttage
825 18 Binnenschiffahrt Binnenschifffahrt
94 6 Brennessel Brennnessel
28 2 Edelmetallegierung Edelmetallegierung
1 1 Flussediment Flusssediment
14 -- Kunststoffenster Kunststofffenster
41 5 Kunststoffolie Kunststofffolie
9 1 Kunststofform... Kunststoffform...
14 -- Kunststoffuellung.. Kunststofffuellung...
50 1 Metallegierung Metalllegierung
5 -- Nulloesung Nullloesung
222 2 Rheinschiffahrt Rheinschifffahrt
68 4 Rolladen/laeden Rollladen/laeden
14 4 Sauerstoffunktion.. Sauerstofffunktion..
53 6 Schalleistung Schallleistung
3036 41 Schiffahrt... Schifffahrt
285 5 schnellauf.../laeuf... schnelllauf.../laeuf..
5 -- Schnellesen Schnelllesen
1 -- Schrittempo Schritttempo
38 1 Stalluft Stallluft
12 1 Stammutter Stammmutter
36 8 Stickstoffixier... Stickstofffixier...
11 -- Stickstofform.. Stickstoffform...
353 11 Stilleben Stillleben
246 18 Stillegung Stilllegung
104 21 Werkstofforschung Werkstoffforschung
8 2 Zellstoffaser Zellstofffaser
8 1 Zellstoffabrik.. Zellstofffabrik..
Es gibt fuer diese Gruppe eine Patentloesung!
Saemtliche Faelle mit Dreifachbuchstaben koennten ohne Woerterbuchdatei
erschlagen werden: man braeuchte nur beim Indexieren alle Dreifach-
durch Doppelbuchstaben zu ersetzen, und dasselbe in der Nutzereingabe.
Das wuerde sogar kaum auffallen, denn die Ergebnisse waeren absolut
korrekt: es gibt keine Faelle, wo beide Schreibungen mit unterschiedlicher
Bedeutung vorkaemen. Es gibt uebrigens schon jetzt Eintraege in unseren
Registern mit Dreifachbuchstaben: sie entstehen aus Bindestrich-Schreibungen,
also z.B. Kunststoff-Fabrikation, wenn das System die Bindestriche beim
Indexieren entfernt (z.B. Pica). Auch diese Faelle waeren dann erledigt:
der Dreifach-Doppel-Ersatz muss NACH der Bindestrich-Entfernung geschehen!
D. Eindeutschung der Schreibweisen
----------------------------------
Zum einen gibt es hier eine ausserordentlich kleine Gruppe, die
katalogmaessig kaum ins Gewicht faellt (Majonaese, Ketschup, Schikoree
u.a. unsaegliche Neuschreibungen, die wir hoffentlich nie in Titeln
sehen werden).
In diese Gruppe gehoert aber auch eine groessere Menge von Woertern, die
die Silben "graph", "phon" oder "phot" enthalten. Diese duerfen in
Zukunft durch "graf", "fon" bzw. "fot" ersetzt werden.
Fuer ..graph.. gibt es die Regel:
"Nur Woerter des sog. Bildungswortschatzes behalten die Original-
schreibweise: Kalligraphie, Seismograph."
Selbst wenn der Begriff "Bildungswortschatz" genauer definiert waere (was
nicht der Fall ist), koennte man fuer die Erkennung solcher Woerter keinen
Algorithmus entwickeln. Also doch ein Lexikon aufbauen? Das Problem ist,
es gibt unter diesen Woertern zahlreiche ad-hoc-Neubildungen, wie z.B.
aerophotogrammetrisch
impulszytophotometrie
thermophotovoltaisch
Stereoorthophoto
und natuerlich Flexionsformen solcher Woerter.
Fallen diese alle unter "Bildungswortschatz" und behalten folglich
das "ph"? Wie auch immer, eine Woerterbuchdatei muesste fuer diesen
Spezialbereich intensiv gepflegt werden, denn es koennen praktisch
jeden Tag Neubildungen daherkommen. Dass die Wissenschaft beim "ph"
bleiben werde, kann nicht pauschal angenommen werden: man findet
Neologismen wie "Motografie".
Eine Volltextsuche in 400.000 Titeldatensaetzen ergab folgende
Frequenzen:
..graph.. 9.698 davon 1.600 am Wortanfang
..phot.. 2.912 2.700
..phon.. 920 243
Dabei sind die fremdsprachigen Woerter mitgezaehlt, die natuerlich unbe-
troffen waeren. Auch ist zu bemerken, dass die neuen Schreibweisen laengst
in der Realitaet vorkommen. Hier wird durch die Reform also nur die Praxis
nachtraeglich sanktioniert, aber die Zahlen der Schreibung mit "f" werden
stark zunehmen.
Denkbar ist eine Loesung, die keine intellektuelle Arbeit und nur wenig
Programmieraufwand verursachen wuerde: Jedes Wort, das eine der drei
Zeichenketten enthaelt, zweimal indexieren, beim zweiten das ph durch
f ersetzen. Dasselbe mit der Nutzereingabe machen. Wenn dann jemand
"thermophoto?" oder "thermofoto" eingibt, werden jeweils beide Schreibungen
gefunden, egal wie die Schreibweise im Buch aussieht. Ansatzweise ist das
eine phonetische Suche, engeschraenkt auf diese Problemfaelle. (Ansonsten
ist eine phonetische Suche wegen des hohen Anteils von Fremdsprachen in
Katalogen problematisch! In sprachlich homogenen Volltextdatenbanken
sieht das anders aus.)
Summa summarum kann vermutlich eine 90%-Loesung, vorsichtig geschaetzt,
mit drei wesentlichen Komponenten erreicht werden (wobei wohl die erste
die schwierigste ist):
1. Retrievalsystem mit Nachbarschafts-Operator, um die Zweiwort/Einwort-
Diskrepanzen in den Griff zu bekommen, insbes. die zahlreichen
"nicht"-Woerter. (siehe A.)
2. Ersetzungen bei Indexierungen und in der Benutzereingabe (s. C. und D.)
(Vorschlag: um einen Begriff dafuer zu haben, koennte man von
"Bereinigenden Ersetzungen" sprechen, kurz "Methode BE".)
Wohlgemerkt: die Ersetzungen sind nicht in den Daten vorzunehmen, nur
in den Registern und in den Suchwoertern des Nutzers!!
3. Ein Hilfesystem (hochtrabend koennte man von einem Expertensystem
sprechen), das jede Benutzereingabe untersucht und mit einer Liste
der Problemwoerter der Gruppe B ausgestattet ist. Geeignete Hinweise
koennten dann gegeben werden ("Versuchen Sie evtl. noch ..."), wenn
der Nutzer ein Wort eingibt, das in der Liste vorkommt, oder das einen
Bestandteil hat, der in der Liste vorkommt, z.B. eines, das mit "nicht"
beginnt. Das kann sehr schnell gehen, denn diese Liste ist ja nicht lang.
Noch ein Vorteil: Eingriffe in das Datenbanksystem oder die Daten selbst
sind damit nicht verbunden.
Fuer einige Systeme auch noch der Hinweis:
(4.) Alphabetische Register zum Vor- und Rueck-Blaettern
Noch nicht alle Kataloge (jedenfalls im WWW) haben solche Register!
Unverstaendlich, wenn man bedenkt, welch grosse Hilfe sie sein koennen.
Man sieht sofort, dass es flektierte Formen und Schreibfehler gibt und
wird auf viele Probleme so ueberhaupt erst aufmerksam.
Beispiel:
3 fotograf
10 fotografen
2 fotografiai
84 fotografie
1 fotografie SIEHE AUCH -> photographie
11 fotografien
1 fotografiere
16 fotografieren
1 fotografierenden
1 fotografierens
6 fotografiert
1 fotografierter
4 fotografii
2 fotografik
1 fotografin
11 fotografische
5 fotografischen
1 fotografischer
1 fotografisches
2 fotogrametria
5 fotogrametrico
1 fotogramme
2 fotogrammetria
1 fotographie SIEHE AUCH -> photographie
...
Auch der Nutzen der SIEHE AUCH-Hinweise ist unmittelbar ersichtlich (diese
hier sind aus dem SWD-Satz fuer "Photographie" entstanden).
Die letzten 10% sind ja immer mit Abstand schwieriger und teurer als die
ersten 90, und bis 100 kommt man bei solchen Problemen nie. Ein wesent-
licher Vorteil des Drei-Komponenten-Ansatzes ist ferner, dass damit ein
Katalogsystem noch immer nachvollziehbar deterministisch bleibt!
Jede umfangreichere Loesung auf Basis eines internen Woerterbuches hat den
Effekt, dass die Ergebnisse nicht mehr immer nachvollziehbar sind (es sei
denn, man kennt genau das Woerterbuch und die Algorithmen und hat viel Zeit).
Skeptische, mitdenkende Benutzer muessen das irritierend finden.
B. Eversberg, 20.7.98
Bernhard Eversberg
Universitaetsbibliothek, Postf. 3329,
D-38023 Braunschweig, Germany
Tel. +49 531 391-5026 , -5011 , FAX -5836
e-mail B.Eversberg _at__ tu-bs.de
Listeninformationen unter http://www.inetbib.de.