[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Altavista: Suchtechniken...



On Sat, 7 Nov 1998, Thomas Hilberer wrote:


> Interessant ist, dass man voellig andere Ergebnisse
> bekommt, wenn man das ü aufloest, also nach "muenchen" sucht, und zwar
> > 1.1 SEARCH: bayern münchen                   HITS: 547.390
> 1085!!!
> der aufgeloeste Umlaut scheint die Suche zu praezisieren,
> siehe 1.3.!
> > 1.2 SEARCH: +bayern +münchen                 HITS: 189.260
> 38645!!!!
> der Unterschied ist mir voellig unverstaendlich, da 1.2. ja
> das Vorkommen beider Suchbegriffe verlangt, waehrend 1.1.
> lt. Altavista auch solche Treffer listet, listen sollte, in
> denen nur einer vorkommt
> > 1.3 SEARCH: "bayern münchen"                 HITS: 10.635
> sorry, gibt gerade soviel wie 1.1, naemlich 1085!!!!
> (habe es mehrfach wiederholt)
> > 1.4 SEARCH: bayern münchen hoeneß            HITS: 388.500
> 2341, was im Vergleich zu 1.1. verstaendlich ist
> > 1.5 SEARCH: +bayern +münchen +hoeneß         HITS: 4.670
> 19, auch okay.
> 
> > (2) ADVANCED MODE (using only the "Boolean Expr."-Field in question 2.1
> > to 2.3)
> >
> > 2.1 SEARCH: bayern and münchen               HITS: 43.513
> 8189
> > 2.2 SEARCH: "bayern münchen"                 HITS: 9.827
> 1085!!! (exakt wie 1.1.)
> > 2.3 SEARCH: bayern and münchen and hoeneß    HITS: 688
> bayern AND muenchen AND hoeneß: 19
> dito, aber hoeness: 37 ???
> >
> > 2.4 SEARCH: bayern and münchen (with hoeneß in "Ranking"-Field)
> >                                              HITS: 688
> 19,
> mit "hoeness": 37.
> 

Lieber Herr Hilberer, liebe Liste,

Sie weisen dankenswerter Weise auf die generelle Problematik der Umlaute
hin, auf die es mir zwar nicht in erster Linie ankam, die aber zusaetzlich
Irritation stiften kann. Mir ging es primaer um die, meiner Meinung nach,
widerspruechlichen Ergebnismengen bei den verschiedenen logischen und/oder
syntaktischen Verknuepfungen. Ich finde daher nach wie vor merkwuerdig,
dass Ihre Ergebnismengen aus 1.1 (bayern muenchen) und 1.3 ("bayern
muenchen") identisch sind [wenn man davon ausgeht, dass es sich bei
"bayern muenchen" um eine zusammenhaengende Wortfolge handelt, die exakt
in dieser Reihenfolge gefunden wird, im ersten Fall jedoch um eine
beliebige Kombination der beiden Begriffe, die nicht einmal
notwendig zusammen auftreten muessen!]   

Ihre Theorie, dass das Aufloesen von Umlauten die Treffermenge
"praezisiert", wage ich zu bezweifeln. Meiner Meinung nach, werden
schlichtweg andere[!] Treffer gefunden, in Abhaengigkeit von der exakten
Schreibweise im Dokument. Gegen diese These koennte sprechen, dass unsere
Umlaute evtl. wie eine "Wildcard" interpretiert werden, also die
Treffermenge deutlich erweitern und unscharf gestalten.

Um die Konfusion nochmal zu steigern, moechte ich hinzufuegen, dass die
Eingabe von 

muenchen bayern 

(in der Simple Search von ALTAVISTA) 
die erstaunliche Treffermenge von 411.030 Hits produziert (also steckt
offenbar auch in der Reihenfolge der eingegebenen Begriffe ein
geheimnisvoller Suchalgorhythmus - vgl. oben Hits unter 1.1 !!)


P.S.

Die Hits fuer 

bayern münchen

in eben der Simple Search sind uebrigens seit meiner Recherche vor knapp
einer Woche dramatisch gestiegen (dass hier nicht "live" auf irgendwelchen
Webservern, sondern auf unerhoert leistungsstarken Rechnern der
kommerziellen Suchdienste recherchiert wird, war ja schon angemerkt
worden): Diese Suche ergab heute 550.160 Treffer (am 30.10.98 =
547.390 - vgl. oben unter 1.1) !!


  Gruss + weiterhin viel Spass beim Gruebeln...


[Schade, dass die ALTAVISTA-Leute bislang nichts zur Erklaerung beitragen
(konnten)!? - Lag vielleicht doch am Suchbeispiel... ;-)]


   Mario Kowalak

  -------------------------------------------------------------------------
   Freie Universitaet Berlin     Mario Kowalak
   Universitaetsbibliothek
   Bibliographische Information
   Garystrasse 39                Tel: 030/838 4284
   14195 Berlin                  e-mail: kowalak _at__ ub.fu-berlin.de
  -------------------------------------------------------------------------



Listeninformationen unter http://www.inetbib.de.