[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Rechtschreibkontrolle für Datenbank: Not-Behelf
- Date: Thu, 17 Aug 2000 18:39:10 +0200
- From: "Klauss, Dr. Henning " <klauss _at__ euv-frankfurt-o.de>
- Subject: Rechtschreibkontrolle für Datenbank: Not-Behelf
SgDH,
ich hatte neulich in INETBIB gefragt, ob jemand ein Rechtschreibkontrollprogramm
für Datenbanken kennt.
Ich habe hierauf nur einige Hinweise von Herrn Skalweit und Herrn Eversberg (merci)
bekommen, aber nicht die erhoffte Antwort erhalten.
Infolgedessen bin ich folgendermaßen vorgegangen:
- Von einem definierten Segment habe ich die Kategorien
"Hauptsachtitel" und "-zusatz" entladen. - Sonstige Elemente der
Titelaufnahmen sind entweder nicht retrievalrelevant (z.B.
Kollationsvermerk), im Weiteren nicht sinnvoll bearbeitbar (z.B.
ISBN) oder unterliegen einer sonstigen Kontrolle (z.B.
Schlagwörter). - Nichtsdestotrotz ist die Liste der zu entladenen
Kategorien im Bedarfsfall aufzustocken, z.B. um die für Fußnoten,
frühere Titel usw.
- Die so erzeugte Datei habe ich in ein Textverarbeitungsprogramm
geladen.
- Um die Menge der indizierten Wörter nicht unnötig aufzublähen, ist es sinnvoll,
das Nichtsortierzeichen rauszunehmen (ASCII-Zeichen für "¬" ist "ALT 170")
und Komposita zu modifizieren, indem der Bindestrich durch "Blank-Bindestrich-
Blank" ersetzt wird.
- Die dann aktivierte Rechtschreibkontrolle wies auf die Fälle hin, die
nicht im zugeordneten Wörterbuch aufgelistet sind. Bei Bedarf - und
dies erwies sich insbes. bei Titelaufnahmen sog. fremdsprachiger
Lit. als notwendig - musste das Wörterbuch (im Fall von Microsoft
Word ist das die Datei "benutzer.dic") aufgebessert werden.
- Die so ermittelten Tippfehler wurden anschließend in der
Datenbank korrigiert.
Herr Eversberg wies in diesem Zusammenhang darauf hin, dass
man sich hüten müsse, "scheinbare Schreibfehler, die keine sind,
weil die Schreibung nun mal so auf dem Titelblatt steht", zu
korrigieren. - Dem ist zuzustimmen, aber nicht in dem Sinne, dass
eine solche Korrektur besser komplett zu unterlassen ist, sondern
dass Korrekturen umsichtig vorgenommen werden. Ob es bei
älteren Büchern "Thor" oder "Tor" heißt, kann nicht ohne Autopsie
entschieden werden: Hier existieren unterschiedliche Schreibweisen.
Natürlich kann auch die "Bunderepublik" in genau
dieser Form auf der Hauptitelseite stehen, aber der
Anfangsverdacht, dass hier ein Tippfehler vorliegt, ist relativ hart.
Wenn dann noch der Blick in andere Kataloge an dieser Stelle die
"Bundesrepublik" kennt, dürfte der Sorgfaltspflicht Genüge getan sein.
Wenn aber z.B. die Titelaufnahme von "Wedel, Henning" in einem
Bibliothekskatalog einmal als "Verfassungsgebung", ein anderes Mal
als "Verfassunggebung" angeboten wird, ist Autopsie geboten.
Dieser Test wurde nur stichprobenartig durchgeführt. Die
Ergebnisse waren im Fall des Kataloges der UB Frankfurt (Oder) derartig mager,
d.h. die Datenbank erwies sich als so tippfehlerfrei, dass weitere
Bemühungen unterblieben.
Es fällt dennoch auf, dass die wenigen Fälle der Tippfehler im
allgemeinen hausintern produziert wurden. Im Fall der
Fremddatenübernahme sank die Tippfehlerquote infolge der erneuten
Kontrolle beim Datenimport auf einen minimalen Level.
Mfg
Klauß
Glueck muss man koennen.
Hansen
Dr. Henning Klauss
UB der Europa-Universitaet Frankfurt (Oder)
- Fachreferent Wirtschaftswiss., Mathematik, Informatik und NW
- Leitung Katalogisierung
Tel: 0335/5534-397 - Sekret.-FAX: 0335/5534-234
URL Fachinformation Wirtschaftswissenschaften:
http://www.ub.euv-frankfurt-o.de/fachinfo/wirtsch.html
URL Fachinformation Mathematik und Informatik:
http://www.ub.euv-frankfurt-o.de/fachinfo/math_in.html
URL SISIS-Anwenderforum Berlin-Brandenburg:
http://www.ub.euv-frankfurt-o.de/sisisaf/saf-bb.htm
Listeninformationen unter http://www.inetbib.de.