[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Rechtschreib-Debakel: Beispiele+Vorschlaege



Rechtschreib-Debakel in den Katalogen               [Laenge: 396 Zeilen]
Beispiele und neue Vorschlaege
-------------------------------------

Gegen die Probleme, die in unseren Datenbanken durch die Rechtschreibreform
zu erwarten sind, wurden in der letzten Woche maechtige Geschuetze aufge-
fahren: Vorschlaege wurden angedacht zur Konstruktion und Institutionali-
sierung von Konkordanzdateien, wobei dann auch Schreibvarianten von insbes.
englischen Woertern in die Ueberlegung einbezogen wurden.
Eine erste Stellungnahme mehr grundsaetzlicher Natur zu diesen Vorschlaegen
habe ich mir am Freitag schon erlaubt, jetzt geht es mir nochmals um die
Substanz der Aenderungen durch die Rechtschreibreform. Es wird sich zeigen,
welche Probleme sich bei genauerem Hinsehen daraus fuer eine Woerterbuch-
loesung ergeben.
Es wird sich auch zeigen, dass groessere Mengen von Faellen auch ganz anders
geloest werden koennen, und zwar mit viel geringerem Aufwand. Am Schluss wird
eine Drei-Komponenten-Verfahren vorgeschlagen, das mit relativ geringem
Aufwand auskommt - im Vergleich zu den "schweren Geschuetzen" eher eine
Schrotflinte. Doch eine Tatsache bleibt bestehen: unsere Daten werden ab
sofort weiter "verunreinigt" (d.h. die Inkonsistenz steigt staerker als
bisher). Im Ausland wird man wohl keine der Loesungen, die wir uns ausdenken
moegen, nachvollziehen. Das bedeutet, dass deutsche Buecher in der Welt
(noch) schwieriger auffindbar werden als vor der Reform - spaetestens dann,
wenn die nachwachsende Generation das "neue" Deutsch gelernt hat und damit
auf die Kataloge losgeht.

Die Rede ist hier nur von KATALOGsytemen. Ueber Suchmaschinen und Volltext-
systeme moegen andere nachdenken, die dafuer mehr Kompetenz besitzen.
(Das Wortgut in Katalogen ist ueberwiegend Titel- und Schlagwortmaterial,
und dieses besteht meistenteils aus Nominalphrasen und unterliegt einer
gewissen intellektuellen Kontrolle! Bei Volltextdaten, auch schon bei
Abstracts, ist das anders: es treten Satzkonstrukte auf und viel mehr
unkontrolliertes, auch irrelevantes oder gar irrefuehrendes, Vokabular.)

Unkritisch fuer OPACs sind Gross-/Kleinschreibung, Kommasetzung, Akzente,
Silbentrennung, "ss" statt scharfem s. Das alles verkraften unsere Systeme
schon seit jeher. Das Thema Umlaute, nebenbei bemerkt, wird durch die
Reform nicht beruehrt; man kann dazu auf ein von der Regelwerkskon-
ferenz angenommenes Gutachten verweisen ("Zur Ordnung und Codierung der
Umlautbuchstaben", Mai 1998):
        www.biblio.tu-bs.de/allegro/formate/umlaut.htm

Spuerbare Effekte enstehen nur durch die Aenderungen in den Bereichen

 A. Zusammen-/Getrennt-/Bindestrichschreibungen
 B. Wortstamm-Aenderungen
 C. Dreifach- statt Doppelbuchstaben
 D. Eindeutschung der Schreibweisen

Dazu folgt jeweils eine Liste mit Beispielen.
Links ist die Anzahl Eintraege angegeben, die im zentralen Katalog des
GBV (Goettingen, ca. 12 Mio. Datensaetze) bzw. im OPAC der UB Braunschweig
(400.000 Eintraege) zu den Woertern zu finden sind. Fuer beide Datenbanken
ist allerdings nicht bekannt, wieviele deutsche Titel sie enthalten.
Es sind immer auch die flektierten Formen (Genitiv, Dativ, Plural...) mit
beruecksichtigt, ferner, soweit moeglich, Zusammensetzungen mit anderen
Woertern, wobei die hier genannten den ersten Teil bilden. Die anderen,
wo also die hier aufgefuehrten Woerter hinter einem anderen in einer
Verbindung stehen, konnten nicht ermittelt werden! (Z.B. lungenkrebs-
erregend, leichtmetallverarbeitend, Baustop, Zechenstillegung...)

Fuer Katalogisierungs-Laien: Die Listen bedeuten keinesfalls, dass nur
diese Eintraege alle zu aendern waeren, und damit waer's dann getan!
Man kann nicht davon sprechen, die Kataloge "auf die neue Rechtschreibung
umzustellen." NICHTS darf geaendert werden, denn die Woerter stehen so in
den Buechern, sind deshalb auch in allen Bibliographien so zitiert,
muessen daher so katalogisiert werden, damit sie auch so gefunden werden
koennen. Dieses Prinzip heisst "Vorlagentreue" und ist ein Grundpfeiler
der Katalogisierung. Ohne dieses Prinzip haette man grosse Probleme mit
dem Datenaustausch und der Verbundkatalogisierung, ganz besonders im
Austausch mit dem Ausland. Die Daten, so wie sie jetzt sind, muessen so
bleiben fuer alle voraussehbare Zeit.
Und genau daraus erwaechst das Debakel: neue Buchtitel werden neue Schreib-
weisen enthalten und muessen konsequent auch so erfasst werden. Damit
entstehen neue Eintraege an anderen Stellen in den Registern, also
Inkonsistenzen, die sich progressiv immer haeufiger auf die Such-
ergebnisse auswirken werden. Immer mehr wird man an diese Moeglichkeit
denken muessen, d.h. man wird die alte Rechtschreibung auf keinen Fall
verlernen duerfen! Von Bibliothekaren kann man das vielleicht verlangen
(obwohl sie dafuer keine Erschwerniszulage bekommen werden), aber vom
Publikum und von Auslaendern? Die werden in wenigen Jahren fast nur noch
die neuen Schreibungen als Suchwoerter eingeben.


A. Zusammen-/Getrennt-/Bindestrichschreibungen
----------------------------------------------
Kritisch sind nur die Faelle, die vorher zusammen und jetzt getrennt
geschrieben werden oder umgekehrt, denn Bindestrichwoerter konnten
auch bisher schon doppelt indexiert werden, damit man sie als Ganzwort
wie auch beide Teile einzeln finden kann. Diese kritischen Faelle sind
mit 'x' am linken Rand markiert.

              alt:                     neu:

     115   7  afro-amerikanisch        afroamerikanisch
x    215  22  alleinerziehend          allein erziehend
x    111  10  allgemeingültig          allgemein gültig
x    593  24  allgemeinverstaendlich   allgemein verstaendlich
      56   3  altberliner              alt-berliner
x     36  --  andersdenkend            anders denkend
     504  19  anglo-amerikanisch       angloamerikanisch
x    ~50   3  Cash flow                Cashflow
x     19   5  datenverarbeitend        Daten verarbeitend
x     14   4  duennbesiedelt           duenn besiedelt
x     17   1  eisenverarbeitend        Eisen verarbeitend
x     16   1  eislaufen                Eis laufen
x      8   1  erdölexportierend        Erdöl exportierend
x     39   2  ernstgemeint             ernst gemeint
x    ~50   1  Fast food                Fastfood
    ~200  11  Feedback                *Feed-back
x     36   1  fleischfressend          Fleisch fressend
x      9   2  getrenntlebend           getrennt lebend
x         --  gutunterrichtet          gut unterrichtet
x     17   1  hilfesuchend             Hilfe suchend
x     20   2  Joint-Venture            Joint Venture oder Jointventure
x     26  10  krebserregend            Krebs erregend
x    249  14  leichtverstaendlich      leicht verstaendlich
x    465  19  metallverarbeitend       Metall verarbeitend
      45   3  Midlife-crisis          *Midlifecrisis  [engl.: mid-life
crisis!]
x     ??  20  New Age                 *Newage
x     28   6  nichtleitend             nicht leitend
x   3974 810  nichtlinear             *nicht linear
x    193  21  nichtrostend             nicht rostend
x      2  --  nichtssagend             nichts sagend
x     87   4  notleidend               Not leidend
x    222  26  radfahren                Rad fahren
x     49  --  Safer Sex               *Safersex
       5  --  Schnee-Eule              Schneeeule
     484  20  Science-fiction          Sciencefiction
x      1  --  vielbefahren             viel befahren
    1662  35  100jaehrig               100-jaehrig [gilt fuer alle Zahlen]
x      4   1  zulasten                 zu Lasten
x    524   9  zuviel                   zu viel

Die mit * gekennzeichneten Woerter duerfen auf beide Arten geschrieben
werden.
Einige dieser Beispiele stehen stellvertretend fuer eine Reihe von anderen
Woertern, die in gleicher Weise veraendert werden (leichtverderblich,
kunststoffverarbeitend, ekelerregend, ...) Ausserdem sind jeweils die
flektierten Formen mit zu beruecksichtigen.
Will man dieser Problemgruppe mit einer Woerterbuchmethode begegnen, wird
es schwierig: die neuen Schreibweisen bestehen oft aus zwei Woertern, das
ist ja gerade die Neuerung.
Was der Mensch leicht aus dem Kontext als zusammengehoerig erkennt, ist
fuer den Computer sehr viel schwieriger als eine Einzelwortverarbeitung.
Ein Sonderproblem sind Verbindungen mit "nicht...", davon treten allein im
Katalog der UB Braunschweig weit ueber 1000 auf, und nicht selten
sind das hochsignifikante Woerter, die man doch gerne finden koennen
wuerde. Die Neuregelung schreibt fuer "nicht"-Woerter vor: getrennt,
wenn ein Partizip folgt (nicht rostend), aber beide Schreibungen sind
zulaessig, wenn ein Adjektiv folgt (nicht linear oder nichtlinear).
Die Woerterbuchsoftware, wollte man sie denn entwickeln, duerfte sich
also nicht auf einen Wortvergleich beschraenken, sie muesste bei be-
stimmten Woertern das nachfolgende mit heranziehen, besonders bei
"nicht". Jede neue solche Kombination, und bei Dissertationen z.B. gibt
es immer wieder neue, muesste intellektuell geprueft werden: ob es wirlich
eine Wortkombination ist und ob sie wohl frueher zusammen geschrieben
worden waere!
Die "nicht"-Probleme sind jedoch nicht neu: wir haben schon jetzt
manchmal alle drei moeglichen Schreibungen, z.B. bei "nicht thermisch".
Bindestrich-"nicht"-Woerter treten in Braunschweig 316mal auf.
Ohne Woerterbuchsoftware koennte das Getrennschreibungsproblem am besten
durch ein System geloest werden, das einen "Nachbarschaftsoperator" hat
oder mindestens in der Lage ist, Kombinationen von Woertern aufzufinden,
die direkt aufeinander folgen. Man muss dann nur beim Suchen daran denken,
dass man diese Option benutzt UND dass es aeltere, zusammengeschriebene
Faelle geben kann.


B. Wortstamm-Änderungen
-----------------------
Kritisch sind nur die Faelle, die vorher zusammen und jetzt getrennt
geschrieben werden oder umgekehrt, denn Bindestrichwoerter konnten
auch bisher schon doppelt indexiert werden, damit man sie als Ganzwort
wie auch beide Teile einzeln finden kann. Diese kritischen Faelle sind
mit 'x' am linken Rand markiert.
Durch ... ist angedeutet, dass es in diesen Faellen etliche Eintraege gibt,
die mit dem betreffenden Wort beginnen.

            alt:                     neu:

  11     2  aufgerauht               aufgeraut
 934    31  essentiell              *essenziell
1326   500+ differential/ell...     *differenzial/ell...
 179    23  existentiell            *existenziell
 179     4  Delphin                 *Delfin
 331    22  Facette                 *Fassette
  44     4  fritier...               frittier...
 229     1  Greuel                   Graeuel
 110     1  Joghurt                 *Jogurt
  20    --  Justitiar               *Justiziar
  94    --  Kaenguruh                Kaenguru
  77     1  numerieren/ung...        nummerieren/ung...
 451    11  Panther                 *Panter
 127    21  Plazieren/ung            Platzieren/ung
3000+  300+ Potential/ell            potenzial/ell
1106    72  rauh...                  rau...
   8     2  rueckwaerts...           rueckwaerts ...
  62     6  schwachbe...             schwach be...
3016   115  selbstaendig...         *selbststaendig...
 439    63  sequentiell...           sequenziell...
 100+   --  Spaghetti               *Spagetti
  80+    6  stengel                  Staengel
  10    --  Steptanz                 Stepptanz
  ??     2  Stop                     Stopp
 147     6  Stukkateur/tur           Stuckateur/tur
  39    --  substantiell            *substanziell
   9    --  Thunfisch               *Tunfisch
9999+  193  Tip/Tips                 Tipp/Tipps  [viele engl. Titel!]
 159     3  Trekking                *Trecking
 163    10  unselbstaendig          *unselbststaendig
  87     8  verselbstaendigen       *verselbststaendigen
  19     1  Zierat                   Zierrat

Gerade bei den hochfrequenten Woertern Tipps und Potential gibt
es auch noch zahlreiche Komposita, in denen sie den zweiten Teil bilden
(Innovationspotential, Supertips, Geheimtips...)


C. Dreifach- statt Doppelbuchstaben
-----------------------------------
Den Loewenanteil stellt hier die oft zitierte Schiffahrt, zumal sie
auch noch in Verbindungen vorkommt (Binnenschiffahrt, ...). Das gilt
aber auch fuer andere: Leicht-, Hart-, Edelmetalllegierung.

           alt:                     neu:

     6  -- Atommuellager(ung)       Atommuelllager(ung)
    32  -- Ballettaenzer/in/tage    Balletttaenzer/in, Balletttage
   825  18 Binnenschiffahrt         Binnenschifffahrt
    94   6 Brennessel               Brennnessel
    28   2 Edelmetallegierung       Edelmetallegierung
     1   1 Flussediment             Flusssediment
    14  -- Kunststoffenster         Kunststofffenster
    41   5 Kunststoffolie           Kunststofffolie
     9   1 Kunststofform...         Kunststoffform...
    14  -- Kunststoffuellung..      Kunststofffuellung...
    50   1 Metallegierung           Metalllegierung
     5  -- Nulloesung               Nullloesung
   222   2 Rheinschiffahrt          Rheinschifffahrt
    68   4 Rolladen/laeden          Rollladen/laeden
    14   4 Sauerstoffunktion..      Sauerstofffunktion..
    53   6 Schalleistung            Schallleistung
  3036  41 Schiffahrt...            Schifffahrt
   285   5 schnellauf.../laeuf...   schnelllauf.../laeuf..
     5  -- Schnellesen              Schnelllesen
     1  -- Schrittempo              Schritttempo
    38   1 Stalluft                 Stallluft
    12   1 Stammutter               Stammmutter
    36   8 Stickstoffixier...       Stickstofffixier...
    11  -- Stickstofform..          Stickstoffform...
   353  11 Stilleben                Stillleben
   246  18 Stillegung               Stilllegung
   104  21 Werkstofforschung        Werkstoffforschung
     8   2 Zellstoffaser            Zellstofffaser
     8   1 Zellstoffabrik..         Zellstofffabrik..

Es gibt fuer diese Gruppe eine Patentloesung!
Saemtliche Faelle mit Dreifachbuchstaben koennten ohne Woerterbuchdatei
erschlagen werden: man braeuchte nur beim Indexieren alle Dreifach-
durch Doppelbuchstaben zu ersetzen, und dasselbe in der Nutzereingabe.
Das wuerde sogar kaum auffallen, denn die Ergebnisse waeren absolut
korrekt: es gibt keine Faelle, wo beide Schreibungen mit unterschiedlicher
Bedeutung vorkaemen. Es gibt uebrigens schon jetzt Eintraege in unseren
Registern mit Dreifachbuchstaben: sie entstehen aus Bindestrich-Schreibungen,
also z.B. Kunststoff-Fabrikation, wenn das System die Bindestriche beim
Indexieren entfernt (z.B. Pica). Auch diese Faelle waeren dann erledigt:
der Dreifach-Doppel-Ersatz muss NACH der Bindestrich-Entfernung geschehen!


D. Eindeutschung der Schreibweisen
----------------------------------
Zum einen gibt es hier eine ausserordentlich kleine Gruppe, die
katalogmaessig kaum ins Gewicht faellt (Majonaese, Ketschup, Schikoree
u.a. unsaegliche Neuschreibungen, die wir hoffentlich nie in Titeln
sehen werden).
In diese Gruppe gehoert aber auch eine groessere Menge von Woertern, die
die Silben "graph", "phon" oder "phot" enthalten. Diese duerfen in
Zukunft durch "graf", "fon" bzw. "fot" ersetzt werden.
Fuer ..graph.. gibt es die Regel:
"Nur Woerter des sog. Bildungswortschatzes behalten die Original-
schreibweise: Kalligraphie, Seismograph."
Selbst wenn der Begriff "Bildungswortschatz" genauer definiert waere (was
nicht der Fall ist), koennte man fuer die Erkennung solcher Woerter keinen
Algorithmus entwickeln. Also doch ein Lexikon aufbauen? Das Problem ist,
es gibt unter diesen Woertern zahlreiche ad-hoc-Neubildungen, wie z.B.
  aerophotogrammetrisch
  impulszytophotometrie
  thermophotovoltaisch
  Stereoorthophoto
und natuerlich Flexionsformen solcher Woerter.
Fallen diese alle unter "Bildungswortschatz" und behalten folglich
das "ph"? Wie auch immer, eine Woerterbuchdatei muesste fuer diesen
Spezialbereich intensiv gepflegt werden, denn es koennen praktisch
jeden Tag Neubildungen daherkommen. Dass die Wissenschaft beim "ph"
bleiben werde, kann nicht pauschal angenommen werden: man findet
Neologismen wie "Motografie".
Eine Volltextsuche in 400.000 Titeldatensaetzen ergab folgende
Frequenzen:

  ..graph..   9.698     davon 1.600 am Wortanfang
  ..phot..    2.912           2.700
  ..phon..      920             243

Dabei sind die fremdsprachigen Woerter mitgezaehlt, die natuerlich unbe-
troffen waeren. Auch ist zu bemerken, dass die neuen Schreibweisen laengst
in der Realitaet vorkommen. Hier wird durch die Reform also nur die Praxis
nachtraeglich sanktioniert, aber die Zahlen der Schreibung mit "f" werden
stark zunehmen.
Denkbar ist eine Loesung, die keine intellektuelle Arbeit und nur wenig
Programmieraufwand verursachen wuerde: Jedes Wort, das eine der drei
Zeichenketten enthaelt, zweimal indexieren, beim zweiten das ph durch
f ersetzen. Dasselbe mit der Nutzereingabe machen. Wenn dann jemand
"thermophoto?" oder "thermofoto" eingibt, werden jeweils beide Schreibungen
gefunden, egal wie die Schreibweise im Buch aussieht. Ansatzweise ist das
eine phonetische Suche, engeschraenkt auf diese Problemfaelle. (Ansonsten
ist eine phonetische Suche wegen des hohen Anteils von Fremdsprachen in
Katalogen problematisch! In sprachlich homogenen Volltextdatenbanken
sieht das anders aus.)

Summa summarum kann vermutlich eine 90%-Loesung, vorsichtig geschaetzt,
mit drei wesentlichen Komponenten erreicht werden (wobei wohl die erste
die schwierigste ist):

1. Retrievalsystem mit Nachbarschafts-Operator, um die Zweiwort/Einwort-
   Diskrepanzen in den Griff zu bekommen, insbes. die zahlreichen
   "nicht"-Woerter. (siehe A.)

2. Ersetzungen bei Indexierungen und in der Benutzereingabe (s. C. und D.)
   (Vorschlag: um einen Begriff dafuer zu haben, koennte man von
   "Bereinigenden Ersetzungen" sprechen, kurz "Methode BE".)
   Wohlgemerkt: die Ersetzungen sind nicht in den Daten vorzunehmen, nur
   in den Registern und in den Suchwoertern des Nutzers!!

3. Ein Hilfesystem (hochtrabend koennte man von einem Expertensystem
   sprechen), das jede Benutzereingabe untersucht und mit einer Liste
   der Problemwoerter der Gruppe B ausgestattet ist. Geeignete Hinweise
   koennten dann gegeben werden ("Versuchen Sie evtl. noch ..."), wenn
   der Nutzer ein Wort eingibt, das in der Liste vorkommt, oder das einen
   Bestandteil hat, der in der Liste vorkommt, z.B. eines, das mit "nicht"
   beginnt. Das kann sehr schnell gehen, denn diese Liste ist ja nicht lang.
   Noch ein Vorteil: Eingriffe in das Datenbanksystem oder die Daten selbst
   sind damit nicht verbunden.

Fuer einige Systeme auch noch der Hinweis:
(4.) Alphabetische Register zum Vor- und Rueck-Blaettern
   Noch nicht alle Kataloge (jedenfalls im WWW) haben solche Register!
   Unverstaendlich, wenn man bedenkt, welch grosse Hilfe sie sein koennen.
   Man sieht sofort, dass es flektierte Formen und Schreibfehler gibt und
   wird auf viele Probleme so ueberhaupt erst aufmerksam.
   Beispiel:

      3   fotograf
     10   fotografen
      2   fotografiai
     84   fotografie
      1   fotografie  SIEHE AUCH -> photographie
     11   fotografien
      1   fotografiere
     16   fotografieren
      1   fotografierenden
      1   fotografierens
      6   fotografiert
      1   fotografierter
      4   fotografii
      2   fotografik
      1   fotografin
     11   fotografische
      5   fotografischen
      1   fotografischer
      1   fotografisches
      2   fotogrametria
      5   fotogrametrico
      1   fotogramme
      2   fotogrammetria
      1   fotographie SIEHE AUCH -> photographie
      ...

Auch der Nutzen der SIEHE AUCH-Hinweise ist unmittelbar ersichtlich (diese
hier sind aus dem SWD-Satz fuer "Photographie" entstanden).

Die letzten 10% sind ja immer mit Abstand schwieriger und teurer als die
ersten 90, und bis 100 kommt man bei solchen Problemen nie. Ein wesent-
licher Vorteil des Drei-Komponenten-Ansatzes ist ferner, dass damit ein
Katalogsystem noch immer nachvollziehbar deterministisch bleibt!
Jede umfangreichere Loesung auf Basis eines internen Woerterbuches hat den
Effekt, dass die Ergebnisse nicht mehr immer nachvollziehbar sind (es sei
denn, man kennt genau das Woerterbuch und die Algorithmen und hat viel Zeit).
Skeptische, mitdenkende Benutzer muessen das irritierend finden.

B. Eversberg, 20.7.98



Bernhard Eversberg
Universitaetsbibliothek, Postf. 3329,
D-38023 Braunschweig, Germany
Tel.  +49 531 391-5026 , -5011 , FAX  -5836
e-mail  B.Eversberg _at__ tu-bs.de


Listeninformationen unter http://www.inetbib.de.