[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Google wird kommerzieller



Sehr geehrter Herr Eversberg, sehr geehrte Listenteilnehmer,

es ist doch beruhigend, dass die Betreiber von Suchmaschinen das
konventionelle Bibliothekswesen als Referenz in Sachen SuchqualitÃt
anfÃhren. Trotzdem gilt es diesen Vorsprung im Markt gegen den Druck
der "vollelektronischen Konkurrenz" zu behaupten. Doch worin wird
dieser in Zukunft bestehen? Sicherlich nicht nur in der reinen
VerfÃgbarkeit bestimmter textueller Quellen. Wir glauben, dass die
entscheidende  Kernkompetenz einer Bibliothek in der themen-bezogenen
Ordnung, Verschlagwortung und Strukturierung ihrer Ressourcen liegt.
Diese wiederum ergibt sich aus dem Wissen um die Semantik (inhaltliche
Bedeutung) und die ZusammenhÃnge zwischen verschiedenen verwalteten
Objekten (Autoren/Urheber, Dokumenten/ Dokumenteninhalten und deren
physischer Ablage). Ausgehend von diesen Ãberlegungen wurde eine
themenbezogene Suche mittels neuer Suchverfahren im Rahmen von
Forschungsarbeiten an der UniversitÃt Giessen in enger Zusammenarbeit
mit der dortigen Bibliothek realisiert. Dabei kommt eine sogenannte
semantische (assoziative) Suchmaschine zum Einsatz. GrundsÃtzlich
erlaubt diese Technik eine Verbesserung der SuchprÃzision, die der
klassischen (Voll-)Textsuche weitaus Ãberlegen ist, ohne zusÃtzliche
Kenntnisse vom Endbenutzer zu erfordern. Dies kommt insbesondere bei
sehr groÃen, definierten SuchrÃumen (umfassende
BibliotheksbestÃnde)
zum Tragen. Die Suchtechnologie vom LuMriX erlaubt es mehrere
Suchbegriffe (BegriffsmolekÃle) zu sinnvollen Themen zu kombinieren.
Dabei werden sogenannte Themen-Netze, die mit dem ISO-Standard "Topic
Maps" reprÃsentiert und aus beliebigen Dokumenten (PDF, HTML, XML,
RDF, etc.) aufgebaut werden, durchsucht. Ein Beispiel zeigt:
http://geb.uni-giessen.de/geb/

Wie das Beispiel zeigt, bleibt die Suche trotzdem einfach und intuitiv
zu bedienen, weil der Nutzer selbst gewÃhlte Stichworte eingeben kann
und trotz Tippfehler, Umlaute, zusammengesetzter Begriffe,
AbkÃrzungen
und anderen Schreibweisen fÃndig wird. Es konnte vielfach z.B. an
Anwendungsgebieten der Medizin gezeigt werden, dass mehrere
Suchparameter, wie die PrÃzision, die VollstÃndigkeit, die Toleranz
und die Geschwindigkeit der Suche gleichzeitig optimiert werden
kÃnnen
(Die angehÃngte Publikation / Zeitungsartikel enthÃlt hierzu weitere
Details). Hierbei
handelt es sich um ein Verfahren, welches den Schwachpunkt
allumfassender Internetsuchdienste, nÃmlich der schwindende
PrÃzision
mit steigender Dokumentenanzahl und Ãberraschenderweise auch mit
steigender Anzahl von eingegebenen Suchbegriffen, aufzeigt. 

Gerne wÃrden wir einen erweiterten Testbetrieb z.B. in einem
Verbundprojekt mit mehreren bundesdeutschen Bibliotheken aufbauen.
Interessenten sind herzlich eingeladen, sich vor Ort an der
UniversitÃt Giessen dieses System, seine AnwendungsmÃglichkeiten und
Anpassbarkeit vorstellen zu lassen.

Mit freundlichen GrÃssen,


PD Dr. Simon HÃlzer
Associate Professor
Med. Informatik
UniversitÃt Giessen
0641-9941370

+++++++++++++++++++++++++++++++++++

âFinden statt Suchenâ im Dschungel elektronischer Informationen

Forschungsgruppe der UniversitÃt Giessen erarbeitet neues
Suchverfahren fÃr einen wachsenden Anwendungsbereich

Das Problem der Beherrschung und Beherrschbarkeit der Informationsflut
elektronischer Medien ist ein stetig Wachsendes! Die Angst des
Benutzers steigt, sei es beruflich oder privat, die eigentlich
wichtigen und relevanten Informationen zu einem Themenkreis bzw. einer
Problemstellung zu verpassen. Ãbliche Recherchesysteme
(Internetsuchmaschinen oder Volltextsuchhilfen) stossen schnell an
Grenzen, wenn es neben VollstÃndigkeit insbesondere auf
SuchprÃzision ankommt, die durch die intelligente VerknÃpfung von
Suchbegriffen erreicht wird. Der Einbau dieser Intelligenz , d.h. das
Erahnen des Rechercheziels einer Anfrage (Worauf will der Nutzer
hinaus?) ist Inhalt von Forschungsarbeiten an der UniversitÃt
Giessen.
Als Grundlage hierfÃr eignet sich die sogenannte eXtensible Markup
Language (XML), eine standardisierte Sprache zur Beschreibung und
Strukturierung von Dokumenten fÃr Datenhaltung und Datenaustausch im
Internet. Mit XML kÃnnen in bisher freien und unstrukturierten Texten
einzelne Themen und Inhalte ausgezeichnet werden. XML erschliesst
somit neue MÃglichkeiten der Textauswertung und stellt eine
ErgÃnzung zu etablierten Datenbank- und Dokumentationssystemen dar.
Am Institut fÃr Medizinische Informatik wurde deshalb eine
Suchmaschine mit dem Namen LuMriX (http://www.lumrix.net) entwickelt,
deren Name sich aus den Internet-Standards XML und URI (âUniform
Resource Identifierâ entspricht der Internetadressinformation)
ableitet. In einer fÃnfjÃhrigen Entwicklungs- und Testphase konnte
gezeigt werden, dass mittels XML mehrere Suchparameter wie die
PrÃzision, die VollstÃndigkeit, die Toleranz und die Geschwindigkeit
der Suche gleichzeitig optimiert werden kÃnnen.
Die Einsatzgebiete erstrecken sich derzeit schwerpunktmÃssig auf die
Informationsrecherche im Bereich der Medizin, den Rechtswissenschaften
und dem Bibliothekswesen (Giessener Anzeiger berichtete erstmals im
Juli 2002). Die Intelligenz der Suche innerhalb dieser Ressourcen
erlÃutern die Forschungsleiter Diplominformatiker Dr. Ralf Schweiger
und Privatdozent Dr. Simon HÃlzer: Die Suchtechnologie vom LuMriX
erlaubt es Ãber herkÃmmliche Verfahren hinaus mehrere Suchbegriffe
(BegriffsmolekÃle) zu sinnvollen Themen zu kombinieren. Dabei wird
die Struktur und inhaltliche Bedeutung der Dokumente sowie
Informationen zu deren thematischer VerknÃpfung (Semantik) genutzt.
LuMriX durchsucht sogenannte Themen-Netze, die mit dem ISO-Standard
"Topic Maps" reprÃsentiert und aus beliebigen Dokumenten (PDF, HTML,
XML, RDF, etc.) aufgebaut werden. 
Ein konkretes Beispiel soll dies erlÃutern: Ein Nutzer gibt die
Suchbegriffe âAutokauf Volkswagen Golfâ ein und definiert damit
ein fÃr Jedermann verstÃndliches Suchziel. FÃr die Maschine bleibt
jedoch die sinnvolle thematische VerknÃpfung (âIch interessiere
mich fÃr den Kauf eines Golf der Marke VWâ) primÃr verborgen.
Elektronisch wird nach dem Vorkommen von Einzelbegriffen und deren
Kombination in verfÃgbaren Texten gesucht. Google findet mehr als
100'000 zumeist irrelevante Seiten. Dagegen erfolgt beim neuen Ansatz
von LuMriX eine sprachliche (Kauf und Auto) und thematische AuflÃsung
der Suchanfrage, die von folgendem Themen-Netz ausgeht: Volkswagen =
Automarke, Auto = PKW und Golf = Produkt der Firma Volkswagen. Dieses
Themen-Netz definiert die NÃhe und Art der Beziehung einzelner
Begriffe. Der Begriff âGolfâ steht damit in Beziehung zum Begriff
âAutoâ, âAutoâ wird synonym zu âPKWâ gebraucht und
gleichzeitig ist festgelegt, dass VW nicht direkt etwas mit Golfsport
zu tun hat. Auf diese Weise erfolgt eine vollstÃndig andere Auswahl,
Gewichtung und Sortierreihenfolge der Suchtreffer ohne
EinschrÃnkungen bei der VollstÃndigkeit zu erleiden. Die Suche
bleibt trotzdem einfach und intuitiv zu bedienen, weil der Nutzer
selbst gewÃhlte Stichworte eingeben kann und trotz Tippfehler,
Umlaute, zusammengesetzter Begriffe, AbkÃrzungen und anderen
Schreibweisen fÃndig wird.
Viele dieser Themen-Netze sind bereits fÃr spezifische
Anwendungsbereiche definiert (siehe oben) bzw. kÃnnen halbautomatisch
erstellt und gepflegt werden. Gleichwohl sind noch einige
Anstrengungen notwendig, um eine nachhaltige Verbesserung der Suche in
elektronischen Medien zu schaffen. Auf diesem Weg zu einem
âSemantischen Webâ kommt der Strukturierung, Verschlagwortung und
themenbezogenen VerknÃpfung eine grosse Bedeutung zu. Dies erfordert
eine erweiterte âKulturâ im Umgang mit elektronischen Medien, die
die UnterstÃtzung des gesamten Lebenszyklus eines elektronischen
Dokumentes mit einbezieht (Information Lifecycle Management). Die
Erfahrungen an der UniversitÃt Giessen zeigen, dass insbesondere die
interdisziplinÃre Zusammenarbeit zwischen Informatikern und
fachgebietsspezifischen Experten (z.B. Mediziner, Dokumentare,
Apotheker und Bibliothekare fÃr den medizinischen Bereich) den
zusÃtzlichen Mehrwert dieser Anwendungen ausmachen. Gleichzeitig
findet hier ein erfolgreicher Wissenstransfer zwischen UniversitÃt,
Public Domain und industrieller Anwendung statt. 

(PD Dr. Simon HÃlzer)



+++++++++++++++++++++++++++++++++++

-------------------
> On 30 Mar 04, at 9:34, Sebastian Wolf wrote:
> 
> > zeitgleich mit dem Ende der bisherigen Alltheweb-Suchmaschine hat
> > Google sein Design geÃndert und stÃrker auf Kommerz
ausgerichtet.
> > 
> Der Wert des Unternehmens wird jetzt auf 20 Mrd. $ geschaetzt und
man plant den 
> Boersengang (es waere der groesste in der Geschichte des Silicon
Valley), da muss 
> einen dies nicht wundern.
> Andererseits betont man bei Google, dass man bezahlte Eintraege
deutlich von den 
> normalen getrennt halte:
> http://www.cbsnews.com/stories/2004/03/25/sunday/main608672.shtml
> 
> In diesem Beitrag stehen sehr interessante Saetze, ganz besonders
der letzte:
> 
> "My guess is about 300 years until computers are as good as, say,
your local 
> reference library in doing search," says Craig Silverstein. "But we
can make slow 
> and steady progress, and maybe one day we'll get there." 
> [Silverstein ist Director of Technology]
> 
> Noch haben wir also einen gewissen Vorsprung.
> 
> B.E.
> 
> 
> Bernhard Eversberg
> Universitaetsbibliothek, Postf. 3329, 
> D-38023 Braunschweig, Germany
> Tel.  +49 531 391-5026 , -5011 , FAX  -5836
> e-mail  B.Eversberg@xxxxxxxx  
> 
Mit Dank fÃr Ihr Engagement,



- Simon HÃlzer


Listeninformationen unter http://www.inetbib.de.