[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: R-Reform: Verschlimmbesserung
- Date: Tue, 11 May 2004 09:44:31 +0200
- From: Walther Umstätter <h0228kdm@xxxxxxxxxxxxxxx>
- Subject: Re: R-Reform: Verschlimmbesserung
Herr Eversberg hat mich auf eine interessante Beobachtung gebracht:
Bei Google bringt
Behaviour 8,76 Mio. Treffer
Behavior 20,6 Mio. Treffer
Behaviour OR Behavior 10,3 Mio. Treffer
Behavior OR Behaviour 10,4 Mio. Treffer
Das ist nicht nur ein merkwürdiges OR, es zeigt auch wieder, dass Google
teilweise einen Unterschied darin macht was man als erstes sucht.
Organisation 25 Mio. Treffer
Organization 48,9 Mio. Treffer
Organisation OR Organization 12 Mio. Treffer
Organization OR Organisation 11,9 Mio. Treffer
organization AND organisation 2,84 Mio. Treffer
organization organisation 2,81 Mio. Treffer
organisation AND organization 2,84 Mio. Treffer
organisation organization 2,85 Mio. Treffer
Ansonsten muss ein Katalog den Verweis von Organisation zu Organization
bzw. umgekehrt nicht vornehmen,
wenn das vom Retrieval übernommen wird, und dieses schiene mir sinnvoller.
Auch das Beispiel "wohl definiert" mit 565 Treffer zu
wohldefiniert mit 6280 Treffer
scheint mir bemerkenswert, im Vergleich zu
"nicht definiert" 44300
nichtdefiniert 48
"kaum definiert" 203
"neu definiert" 46900
etc.
Zu definiert erscheinen 1,32 Mio. Treffer
Das zeigt sehr schön, wie wichtig im Retrieval eine getrennte
Schreibweise wäre,
auch wenn ein Verlust von 6280 Treffern bei der Suche nach Definitionen
über 1,32 Mio. "definiert" ,
nur einen Fehler von 5 Promille ausmacht.
Noch schöner zeigt uns, wo das eigentliche Problem liegt, wenn wir suchen:
rostend 2490 Treffer
rostend OR nichtrostend OR rostende OR gerostet 9000 Treffer
rostend -nichtrostend 2,430 Treffer
rostend -"nicht rostend" 463 Treffer
Ob das bei Google morgen auch noch so ist bleibt offen.
MfG
Umstätter
Bernhard Eversberg wrote:
On 10 May 04, at 20:28, W. Umstaetter wrote:
Zumindest haben wir eine amerikanische Schreibweise für behavior,
organization, etc.
Daran sieht man, dass auch eine nicht gelungene Reform immer noch Spuren
hinterlassen kann, die einem fuer alle Zeit beim Retrieval zu schaffen machen
koennen.
Und welcher Katalog oder Suchmaschine gleicht denn diese, schon lange bestehenden
Differenzen aus? Bis jetzt doch wohl keine.
Bitte keine Missverstaendnisse: ich rede nicht einem starren Konservativismus in
der Orthographie das Wort, aber ich moechte es doch ins Bewusstsein bringen, was
man anrichtet mit einer Aenderung von Schreibweisen. Das Krimskrams-Wissen, das
beim Retrieval gebraucht wird, nimmt immer mehr zu. Kann uns, professionell
gesehen, eigentlich recht sein, mal anders betrachtet ...
Eigentlich sind das alles Marginalien im Vergleich zu den Homonymen und
Vieldeutigkeiten unserer Sprache, die durch die Syntax entstehen.
Darum haben wir in unserer Sprache beim Retrieval seit Jahrzehnten
recall ratios und precisions von nur 50 Prozent.
Eben. Ob man dieses desastroese Verhaeltnis ohne Not noch weiter verschlechtert,
das ist die Frage. Die Probleme koennen sich doch gegenseitig aufschaukeln, wenn
man zwei oder mehr Suchterme zu kombinieren hat.
dann fallen Schreibweisen mit ss statt ß, sss oder Getrenntschreibungen
ganz erheblich weniger ins Gewicht.
Dagegen hatte ich ueberhaupt nie etwas gesagt, denn
... das ß wird ohnehin oft automatisch als ss recherchiert ...
dieses Problem ist deswegen keins.
sondern darum, dass wir erkennen sollten, dass Getrenntschreibung die
Recherche dort erleichtert, wo es keine left hand truncation gibt.
Dafuer gibt es aber recht wenige sinnvolle Beispiele! Die meisten neuen
Getrenntschreibungen sind in dem Sinne nicht hilfreich. Denken Sie an
"nicht linear" oder "nicht rostend". Solche hatte ich in meinem Papier angefuehrt
und angeprangert.
Vermutlich wird man auch in absehbarer Zukunft, unabhängig von einer
Rechtschreibreform, das Wort "Wurschtigkeit" mit suchen müssen, wenn man
"Wurstigkeit" meint.
Sehen Sie, Sie haben es begriffen!
Man muss nicht selten ganz gezielt nach falschen schreibweisen
recherchieren,
Nicht immer, aber immer oefter, das ist der Punkt.
Das ist der Grund, warum auch ontologies keine höhere precision bringen
können, solange wir keine klare Begrifflichkeit über einen wohl
definierten semiotischen Thesaurus herstellen.
"wohldefiniert" ist wieder ein gutes Beispiel. Wenn "wohl definiert" geschrieben
wird, ist das nicht nur beim Lesen aergerlich holprig, man findet's auch weniger
leicht, und nicht mit einem Schlage zusammen mit "wohldefiniert".
Was den semiotischen Thesaurus gleich wohl zu einem um so groesseren Desiderat macht.
(Noch zwei Beispiele fuer Neufehler.)
B.E.
Bernhard Eversberg
Universitaetsbibliothek, Postf. 3329,
D-38023 Braunschweig, Germany
Tel. +49 531 391-5026 , -5011 , FAX -5836
e-mail B.Eversberg@xxxxxxxx
Listeninformationen unter http://www.inetbib.de.