[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: [InetBib] BASE. Scirus. ...
Guten Tag Herr Graf,
erstmal freut es mich, dass Sie BASE in Ihrem Blog als "ernsthaften
Konkurrenten für OAIster" bezeichnen.
Zum Thema Volltextsuche: BASE als Service basiert hauptsächlich auf dem
OAI-"Protocol for Metadata Harvesting", von Volltextindexierung ist da erst mal
keine Rede.Ob im Hinblick auf das Verhältnis Recall/Precision nun reine
Metadaten- oder Volltextindexierung besser oder schlechter ist, mag ich nicht
entscheiden; das Ganze hängt in der Tat aber auch von der Qualität der
OAI-Metadaten ab, die im OAI-Umfeld in vielen Fällen verbesserungswürdig ist
und auf der Service-Seite enormen zusätzlichen Aufwand im Hinblick auf
Normalisierung der Daten erfordert. Durch DINI-Zertifikat, DRIVER-Guidelines
und standardisierte Repository-Software ist schon einiges erreicht worden, wenn
Open Acess als ernsthafte Alternative zu den Angeboten kommerzieller Verlage
weiter an Boden gewinnen soll, dann lautet meine Forderung eher: die Qualität
der OAI-Metadaten muss verbessert werden und sollte möglichst so gut sein wie
die von kommerziellen Anbietern (Herr Wagner hat ja welche genannt). Und wenn
das auf Seiten der Data Provider trotz Zertifikaten, Guidelines usw. nicht oder
nur unzureichend funktioniert, dann muss das mit automatischen Verfahren
versucht werden und daran arbeiten wir.
Das Thema Volltextindexierung von OAI-Quellen und die Unterschiede zwischen
Harvesten und Crawlen hatte ich Ihnen vor 2 Jahren schon mal per Mail
erläutert, da das offensichtlich fruchtlos war, brauche ich das nicht
wiederholen. Nur soviel: es ist aufwändiger, aus OAI-Metadaten den Link zu
einem PDF-Volltext zu analysieren (der Link steht leider nicht immer im
entsprechenden DC-Feld), das PDF zu holen (häufig gibt es ja auch noch mehrere
Teile zu einem Metadatensatz), es - wenn möglich - in Text umzuwandeln und zu
indexieren und wieder mit den dazugehörigen OAI-Metadaten zu verknüpfen, als
eine Webseite zu Crawlen und einem Link zu folgen.
Zum Thema Ranking in BASE: in der Tat ist es so, dass einige offene
Volltextangebote (z.B. Gutenberg, Bartleby, Wiki-Books), die nicht über eine
OAI-Schnittstelle verfügen, von BASE gecrawlt werden. Dokumente aus diesen
Quellen erscheinen dann in der Trefferliste weit oben, wenn z.B. Novalis im
Title-Tag oder in Links vorkommt und das Verhältnis von "Document Frequency" zu
"Inverse Document Frequency" entsprechend hoch ist (es gibt noch eine Reihe
weitere Ranking-Faktoren, die zu erläutern das Ganze hier sprengen würde). Das
ist Suchmaschinen-Standard und Sie haben in BASE die Möglichkeit, die
Treffermenge über das Drill-Down entsprechend zu bearbeiten. Das haben Sie z.B.
in OAIster nicht und es wäre ganz nett, wenn Sie bei Ihren
Suchmaschinen-Vergleichen solche Aspekte - oder auch den Unterschied von
OAIster und BASE bezogen auf die Such- und Antwortzeiten - erwähnten, bevor Sie
zu der Behauptung kommen, BASE sei unbrauchbar.
Viele Grüße
Dirk Pieper
--
http://www.inetbib.de
Listeninformationen unter http://www.inetbib.de.