[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: Google - die eierlegende Wollmilchsau?
- Date: Wed, 7 May 2003 15:25:27 +0200
- From: Jörg Prante <prante _at__ hbz-nrw.de>
- Subject: Re: Google - die eierlegende Wollmilchsau?
Am Mittwoch, 7. Mai 2003 14:58 schrieb Bernhard Eversberg:
> On 7 May 03, at 4:32, Sandra Kirn wrote:
> > Wichtig fuer eine
> > Suchmaschine ist, dass sie die Beziehung der Suchworte
> > miteinander verknuepfen kann und dadurch die
> > Suchanfrage des Nutzers besser versteht. Dies bringt
> > allerdings nur etwas, wenn die Rohdaten (eben z.B.
> > XML) einen Mehrwert als reines HTML bieten.
>
> XML selber bringt's nicht, sondern man braucht zusaetzlich
>
> 1. ein XML-Schema fuer die Strukturierung der Daten
>
> 2. Skripte (in XSLT oder was immer), die mit dem Schema umgehen koennen
>
> 3. qualitaetvolle Daten
>
> Nummer 3 ist am wichtigsten. Schrott wird nicht dadurch veredelt, aber auch
> nicht dadurch fuer Algorithmen als Schrott erkennbar (das waer schoen!),
> dass er in XML verpackt wird. Er sieht dann nur serioeser aus und braucht
> mehr Platz. Qualitaetvolle Daten entstehen aber nicht von selber und sind
> leider auch nicht gut per Algorithmus als solche zu erkennen. Das Web ist
> nicht gerade voll davon.
Sehr geehrter Herr Eversberg,
sie brauchen nicht unbedingt XML-Schema. Sie brauchen auch nicht unbedingt
stark strukturierte (mühsam vorverarbeitete) XML-Daten. XSLT dient zur
Transformation beliebiger XML-Dokumente, spielt also auch keine zentrale
Rolle. Es reichen die Daten in halbwegs der Form, wie Sie sie nachher finden
wollen. Über spezielle Verfahren (Vektorisierung, Topic Maps usw. - Lumrix
ist ein Beispiel, aber auch die Arbeitsweise von FAST Data Search, siehe
http://www.scirus.com) können Maschinen über eine beliebige Menge an
semistrukturierten Daten (Kataloge, Abstracts, Volltexte usw) mit geeigneten
Verfahren ohne weiteres Zutun die nötigen Parameter gewinnen, die als
Grundlage für die schnelle Orientierung in späteren Suchanfragen dienen. Sie
können sich das als eine Art automatisierte Verschlagwortung vorstellen, die
mit Metriken in mathematischen Suchräumen arbeitet. Mit den Details muss sich
ein Nutzer nicht beschäftigen. Moderne Suchtechnologien in XML leisten mehr,
als Sie womöglich ahnen.
Viele Grüße
Jörg Prante
--
Jörg Prante
Dipl.-Inform.
IT-Services Digitale Bibliothek
Online-Fernleihe und Dokumentlieferdienste
Hochschulbibliothekszentrum NRW (HBZ)
Postfach 270451, 50510 Koeln
Telefon +49-221-40075-156, Fax +49-221-40075-190
http://www.hbz-nrw.de/literatur/fernleihe
Listeninformationen unter http://www.inetbib.de.