[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [InetBib] BASE. Scirus. ...



Dirk Pieper schrieb:

Guten Morgen!

Zum Thema Volltextsuche: BASE als Service basiert
hauptsächlich auf dem OAI-"Protocol for Metadata
Harvesting", von Volltextindexierung ist da erst mal keine
Rede.

Dacht' ich's mir doch, da war was ;)

[...]
wenn Open Acess als ernsthafte Alternative zu den
Angeboten kommerzieller Verlage weiter an Boden gewinnen
soll, dann lautet meine Forderung eher: die Qualität der
OAI-Metadaten muss verbessert werden

Definitiv.

und sollte möglichst so gut sein wie die von kommerziellen
Anbietern

Besser. Das ist eigentlich auch nicht wirklich unmöglich.
Ist schon interessant was man da alles verkaufen kann...

Und wenn das auf Seiten der Data Provider trotz
Zertifikaten, Guidelines usw. nicht oder nur unzureichend
funktioniert, dann muss das mit automatischen Verfahren
versucht werden und daran arbeiten wir.

Wobei IMHO der günstigere Ansatz immer noch ist, die
Provider zu reparieren. Da Sie das DINI-Zertifikat
ansprechen: in der aktuellen Fassung ist das schon
ambitioniert, wenn man das erreichen möchte. Das mag den
einen oder anderen schon erst mal verschrecken wenn sie/er
liest was man da für 2007 haben soll. Ob das günstig ist
weiß ich nicht.

Das Thema Volltextindexierung von OAI-Quellen und die
Unterschiede zwischen Harvesten und Crawlen hatte ich
Ihnen vor 2 Jahren schon mal per Mail  erläutert, da das
offensichtlich fruchtlos war, brauche ich das nicht
wiederholen.

Das erklärt allerdings warum hier immer von BASE als
Suchmaschine gesprochen wird, quasi in einem Atemzug mit
Google.

Nur soviel: es ist aufwändiger, aus OAI-Metadaten den Link
zu  einem PDF-Volltext zu analysieren (der Link steht
leider nicht immer im entsprechenden DC-Feld),

So ein richtig schönes gibts dafür ja auch nicht, schon gar
nicht in dc:simple. identifier aber da muß man nicht auf das
PDF verweisen und da kann schon auch erst mal ne ISBN
stehen. Meist landet man da nur auf der Eingangseite und
kann dann lustig HTML parsen.

Oder habe ich da was verpaßt?

Genau das Problem: "ich will eigentlich das Dokument, aber
ich will dass es meine Maschine abholt" habe ich doch ab und
an mal. Soweit ich das sehe wird das aber erst in OAI-ORE
gelöst, das gerade mal erschienen ist. Sonst muß ich das für
jede Quelle passend implementieren. Lästig.

das PDF zu holen (häufig gibt es ja auch noch mehrere
Teile zu einem Metadatensatz)

"Mehrbändiges" mal ganz ab und so triviale Fragen wie: der
Server hat ein PDF, ein PS, ein tar.gz und ein ZIP. Was mag
ich da wohl alles nehmen (müssen)?

es - wenn möglich - in Text umzuwandeln

... bei gescannten Vorlagen und/oder Bild-PDFs ... Kann man
viel Spaß haben. Auch mit einer guten OCR.

Zum Thema Ranking in BASE: in der Tat ist es so, dass
einige offene Volltextangebote (z.B. Gutenberg, Bartleby,
Wiki-Books), die nicht über eine OAI-Schnittstelle
verfügen, von BASE gecrawlt werden. Dokumente aus diesen
Quellen erscheinen dann in der Trefferliste weit oben,

Vielleicht ist es in der Tat sinnvoll, diese für die Suche
ausschließen zu können. Für manche Fragestellungen könnte
das zu günstigeren Treffermengen führen.

und Sie haben in BASE die Möglichkeit, die Treffermenge
über das Drill-Down entsprechend zu bearbeiten.

In dem gegebenen Beispiel würde mir allerdings zunächst nur
mal die Option "Subject" einfallen. ;)

Und weil ich immer so geschimpft werde wenn ich gerne ein
bißchen Sacherschließung will und nicht nur (auch, aber halt
nicht nur) einen Volltext: "Browse Base" braucht eine DDC
für das Dokument. AFAIK ist die automatische Generierung von
DDC wenn man nur einen Volltext hat noch kein gelöstes
Problem. Heute. Jetzt.

PS: Machen sie nur mal mit BASE weiter, so schlecht ist das
nicht.

PPS: Gibts eingentlich eine API für Base? Sprich einen
Webservice oder sowas wo ich mit Base ohne GUI sprechen
kann?

--

Kind regards,

Alexander Wagner
Subject Specialist
Central Library
52425 Juelich

mail : a.wagner@xxxxxxxxxxxxx
phone: +49 2461 61-1586
Fax  : +49 2461 61-6103
http://www.fz-juelich.de/zb/mitarbeiter/fachinformation#wagner


------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------
Forschungszentrum Juelich GmbH
52425 Juelich
Sitz der Gesellschaft: Juelich
Eingetragen im Handelsregister des Amtsgerichts Dueren Nr. HR B 3498
Vorsitzende des Aufsichtsrats: MinDir'in Baerbel Brumme-Bothe
Geschaeftsfuehrung: Prof. Dr. Achim Bachem (Vorsitzender),
Dr. Ulrich Krafft (stellv. Vorsitzender), Prof. Dr. Harald Bolt,
Prof. Dr. Sebastian M. Schmidt
------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------

-- 
http://www.inetbib.de


Listeninformationen unter http://www.inetbib.de.