[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: Web-Assoziator, war: Suchmaschinensuche
- Date: Wed, 8 Jan 2003 16:17:18 +0100 (MET)
- From: daniel _at__ roedding.de (Daniel Roedding)
- Subject: Re: Web-Assoziator, war: Suchmaschinensuche
Hallo Frau Bertram,
> > http://metager.de/asso.html
> Das Ding ist ja ganz herzallerliebst.
:-)
> Ich habe es eben mal in zwei Versuchen mit der Eingabe von 'Hochzeit'
> versucht
[...]
> und, besonders entzueckend:
> 'kleiderschrankexpertensystem' (beide male unter ferner liefen)
>
> Weiss jemand, wie diese Einrichtung funktioniert? Auf den Seiten von
> Metager habe ich nichts dazu gefunden.
über die Implementation bei Metager weiß ich nichts. Wir haben etwas
entfernt ähnliches als Experimentialsystem aber auch mal gebaut bzw.
versucht damit auf den grünen Zweig zu kommen. Wir sind seinerzeit
wie folgt vorgegangen:
1. "Schlagwort-Generator" für ein Einzeldokument
heuristische Extraktion von Worten, die "wichtig" sein könnten,
aus dem Text einer Einzelseite
2. "Diskriminator"
für zwei gegebene Mengen mit je n Einzeldokumenten konnten Worte
extrahiert werden, mit denen eine möglichst deutliche Unterscheidung
der Dokumente untereinander möglich wurde
3. Mengenbildung/-optimierung
mehrere Ergebnisse aus 1. konnten zu einer Gesamtliste zusammengefügt
werden
Ziel hierbei war, einerseits eine Funktion "ähnliche Dokumente" anbieten
zu können, zum anderen "intelligente" Rückfragen auf Suchanfragen
zu ermöglichen, also z. B. auf Eingabe von "Laster" mit einer Rückfrage
wie "LKW oder Alkohol?" reagieren zu können...
Was die Schlagwort-Extraktion aus einem Text angeht, kann man mit
ein wenig krauser Mathematik und ein paar experimentiell ermittelten
Annahmen recht gut aus einem Eingabedatenstrom eine Menge von Worten
extrahieren, die zumindest teilweise themenverwandt bzw. charakteristisch
sind. Mit wenig Software-Aufwand kommen erstaunliche Dinge raus, aber
immer mit einer gewissen Schrottquote.
Technisch kann man dabei so vorgehen, daß zunächst ein paar Allerwelts-
Stopworte rausgefiltert werden (Liste hier waren ca. 600 Wörter). Aus
dem Rest-Text werden längere Wörter, die unterdurchschnittlich häufig
vorkommen, in einer Zwischenliste gesammelt und gescored. Dann schaut
man sich weitere Wörter im Text an, die in etwa eine vergleichbare
Auftrittswahrscheinlichkeit haben, packt die mit Score ebenfalls in
die Liste, und anschließend wird die Liste beginnend mit dem höchsten
Score weggearbeitet. Dabei werden für einen Text immer eine feste
Zahl an Keywords geliefert. Bei der Übernahme von Worten aus der
Zwischenliste in die Ergebnisliste wird für jedes neue Wort geprüft,
ob die im Aufbau befindliche Ergebnisliste bereits ein "ähnliches"
Wort enthält (Editierdistanz ermitteln, Schwellenwert definieren).
Die Scores für Einzelworte haben wir grundsätzlich nur statistisch
ermittelt. Unser Testprogramm hat auf beliebigen ASCII-Texten gearbeitet
und weder Dokumententstruktur noch Satzbau etc. berücksichtigt.
Interessanterweise hat hier trotz der Verwendung längerer Wörter als
Orientierungsmarke die Software auch auf englischsprachigen Texten
erstaunlich gut funktioniert.
Die "Blindassoziationen", die Sie in Ihrer Mail erwähnten, hätten aber
auch aus unserer Software stammen können - wir sind in genau das gleiche
Problem hineingelaufen. Das hat letztendlich dazu geführt, daß das
Projekt erstmal nicht weiterverfolgt wurde.
Sehr interessant zu sehen, daß andere Leute offensichtlich mit
ähnlichen Ansätzen auch mal experimentieren wollen... vielleicht
hat das Metager-Team ja ein besseres Händchen für die Parametrierung,
so daß die die Schrottquote irgendwann noch rausdrängen?
Viele Grüße,
Daniel Rödding
--
Daniel Roedding phone: +49 5252 9838 0
daniel _at__ roedding.de fax: +49 5252 9838 20
Listeninformationen unter http://www.inetbib.de.