[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: Rechtschreibreform und Sacherschliessung
- Date: Fri, 4 Aug 2000 12:20:34 +0200
- From: "Walther Umstaetter" <h0228kdm _at__ rz.hu-berlin.de>
- Subject: Re: Rechtschreibreform und Sacherschliessung
B. Eversberg schrieb:
> 1. Man kann nicht erwarten, dass Fuzzy-Methoden ueber kurz oder lang
> in allen Katalogen ueblich sein werden, noch weniger kann man
> erwarten, dass sie auf gleiche Weise arbeiten werden.
> 2. Fuzzy-Methoden vergroessern i.d.R. die Ergebnismengen, aber nicht
> die Praezision. Es kommen zwangslaeufig auch oft unerwuenschte
> Treffer raus.
> 3. Durch Fuzzy-Methoden arbeitet ein Katalog scheinbar nicht mehr
> deterministisch. Manchmal kommt was, manchmal nicht -
> undurchschaubar, nicht nachvollziehbar. Das ist bisher nicht so, da
> kann man mit etwas Kenntnis immer begreifen, warum dies oder das
> gekommen ist bzw. nicht. Mir scheint also, dass die Kataloge durch
> "fuzzy" eher an Vertrauenswuerdigkeit verlieren wuerden.
> Zumindest muss man wohl dann fordern, dass die "fuzzy"-Option
> wahlweise einschaltbar ist.
>
> Eine gute Fuzzy-Loesung sind im uebrigen die alphanumerischen
> Register, in denen man vor- und zurueck blaettern kann. Darin sieht
> man unmittelbar, was es gibt und welche Schreibweisen. Statt dass
> einem das Programm eine Ergebnismenge vorlegt, ohne zu erklaeren, wie
> sie zustande kam - und ohne anzuzeigen, was man haarscharf verpasst
> hat. Im Register sieht man's.
Das ist sicher richtig. Deshalb schalte ich solche Hilfen auch fast immer ab
und suche meine verschiedenen Schreibweisen, z.T. auch Schreibfehler
gezielt.
Man muss sich aber darüber im klaren sein, dass die Verluste (bei der recall
ratio)
durch kontrollierte Vokabularien, (gegenüber Frei- bzw. Volltexten)
eher größer sind. Das zeigten schon die alten Cranfield Studien (s. unser
Lehrbuch
unter Cranfield-Studien) bei Indexierungen mit unkontrollierten Benennungen
ansatzweise (damals in den 60er Jahren wurden die Begriffe recall ratio,
precison
und noise entwicklet), und die späteren Untersuchungen bei zunehmenden
Volltextangeboten noch deutlicher. In vielen Fällen steigt sogar die
precision.
Seit der lateinischen und griechischen Literatur haben wir eine wachsende
Sprachvielfalt,
haben Inkonsistenzen in einer Sprache, haben etwa in jedem fünfzigsten Wort
Schreibfehler
(bei herkömmlichen Retrievalsystemen - im Internet sicher noch weit mehr),
überstanden bereits
Schreibreformen und leben in zunehmendem Maße mit einem Marketing, das seine
Produkte
absichtlich falsch schreibt und spricht (AskSam, AltaVista, SCSI = Scusy
(engl.)
= Skasi (deutsch gesprochen) etc.. Die Rechtschreibreform ist wenigstens ein
systematischer
Fehler, und damit leicher fassbar, als randomisierte Fehler. Wenn sie sich
nur langsamer durchsetzt
(bzw. wieder lansam verschwindet) gleicht sie immer mehr einem
Zufallsfehler.
Es führt hier zu weit, die Vorteile von kontrollierten Vokabularien (14.
Online- Tagung der
DGD Proceedings, Frankfurt am Main DGD-Schrift (OLBG-13) 2/92 S.403-420,
1992
www.ib.hu-berlin.de/~wumsta/pub65.html) und insbesondere die von Thesauri
auszuführen,
sie liegen aber nicht an der hier diskutierten Stelle (nfd Information -
Wissenschaft und
Praxis 50 (4) S.197-203, 1999).
Ich sehe im Moment nur den Ausweg, Volltexte auf der Basis von SGML mit
Thesauri
zusätzlich zu erschließen. Das kann gleichzeitig dazu genutzt werden, solche
Texte auch
Computern verständlich zu machen - in dem Sinne, dass die Thesauri den
Benennungen
eines kontrollierten Vokabulars eine Begrifflichkeit zuordnen. Damit könnte
man in
einem entsprechenden Metatag angeben, welche Schreibweise gewählt wurde.
Information hat nichts mit Bedeutung zu tun. Daher konnten Computer bisher
Information
verarbeiten ohne sie inhaltlich zu verstehen. Das lässt sich nur durch
Thesauri ändern.
MfG
Umstätter
Listeninformationen unter http://www.inetbib.de.