[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [InetBib] Suchmaschinen und ihre Bewertung



Sebastian Wolf schrieb:

Guten Morgen!

Warum findet BASE bei einer Suche nach
"Schloß"   35.355 Treffer und bei einer Suche nach
"Schloss"   6.319 Treffer?

Vielen Dank für Ihren hochprofessionellen Retrievaltest. Bisher ist es
in der Tat leider nicht möglich, dass bei der Suche eines Wortes mit "ß"
auch automatisch die Schreibweise mit "ss" gefunden wird.

Dumme Frage: wäre das überhaupt in aller Allgemeinheit wünschenswert?

Da bin ich mir gar nicht so sicher, zumal Sie ja Dokumente in beliebigen
Sprachen indexieren. Wenn nicht jetzt dann doch im Rahmen des Projekts.
Wen interessiert da schon dieses "germanische Zeug"?

Bzw. anders ausgedrückt: im Deutschen mag das noch verhältnismäßig
einfach sein, da ist die Anzahl "funny chars" endlich. Aus allen ä auch
ein ae zu machen ok. Aus allen ß ein ss, mir wegen. Auch aus allen sz
ein ss? Alle /3 nach ss? Die \{ss} und \s auch? ("a nach ae hätten wir
auch noch ;) Man ward da  ja erfinderisch, als der Computer nur 7bit
konnte...

Und jetzt stelle ich mich mal ganz dumm (fällt mir leicht ;). BASE
indexiert, sagen wir mal, eine russische Quelle. OAI liefert schön brav
alles in UTF und man hat sein kyrillisch. Und was machen wir dann? Alle
möglichen Transkriptionen der jeweiligen Buchstaben auch in den Index
packen? (Nein, ich habe keine Ahnung wie der Benutzer sowas heute sucht,
russisch spreche ich nicht.)

Wäre das wirklich gut?

Und wie behandelt man dann sowas hier konsistent?

"Study of the tau^- -> K^- pi^+ pi^- nu_tau decay"

Also das ist der Titel, da fehlts auch an ein paar Buchstaben im
"normalen" Zeichensatz. (TeX: Study of the $\tau^- \rightarrow K^- \pi^+
\pi^- \nu_\tau$ decay")

Ist es nicht an der Stelle definitiv geschickter minimale Intelligenz
des Nutzers zu erwarten, auf dass er wisse, es bestünde im genannten
Beispiel die Chance einer Möglichkeit, dass in den von ihm gesuchten
Quellen das Schloß auch Schloss oder Schlosz geschrieben sei? Zumal der
betreffende wahrscheinlich weiß: mein Text ist in deutsch, und da
sind/waren früher andere Formen üblich. (Da ist noch nicht mal drüber
nachgedacht ob wir aus dem Delphin automagisch einen Delfin machen
müßten. Woher soll denn der Wissenschaftler 2050 wissen, dass da
eigentlich ein ph hingehört. Also wenn ich die Logik mal weiterverfolge.)

IMHO war das "auflösen von Umlauten" nicht so die tolle Idee, und wurde
ja nur eingeführt, weil ein kleines Land jenseits des Ozeans vergaß,
dass da noch unbekannte weiten westlich und östlich davon existieren und
die auch noch andere Sprachen sprechen.

--

Kind regards,

Alexander Wagner
Subject Specialist
Central Library
52425 Juelich

mail : a.wagner@xxxxxxxxxxxxx
phone: +49 2461 61-1586
Fax  : +49 2461 61-6103
http://www.fz-juelich.de/zb/mitarbeiter/fachinformation#wagner


------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------
Forschungszentrum Juelich GmbH
52425 Juelich
Sitz der Gesellschaft: Juelich
Eingetragen im Handelsregister des Amtsgerichts Dueren Nr. HR B 3498
Vorsitzende des Aufsichtsrats: MinDir'in Baerbel Brumme-Bothe
Geschaeftsfuehrung: Prof. Dr. Achim Bachem (Vorsitzender),
Dr. Ulrich Krafft (stellv. Vorsitzender), Prof. Dr. Harald Bolt,
Prof. Dr. Sebastian M. Schmidt
------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------

-- 
http://www.inetbib.de


Listeninformationen unter http://www.inetbib.de.