[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [InetBib] HatSchonWer: Die GND mit Solr indexiert

Date: Mon, 31 May 2010 13:49:49 +0200
From: Sascha Szott <szott@xxxxxx>
Subject: Re: [InetBib] HatSchonWer: Die GND mit Solr indexiert

Hallo Herr Reh,

Am 31.05.2010 12:55, schrieb Uwe Reh:

Auch wenn Sie es befürchtet haben, es geht mir 'nur' um das Retrival.
Allerdings hilft mir der XPathEntityProcessor wenig weil ich die
Lieferung im N-Triple-Format verwenden möchte. (Ist auch kein Problem,
aber ich hatte gedacht, es hätte schon jemand einen eigenen
(pre)Processor geschrieben)

Nachdem ich das ZIP-Archiv von der DNB schließlich entpackt hatte, 
musste ich auch feststellen, dass die Daten gar nicht im RDF/XML Format 
vorliegen. Eine Umwandlung von N-Triples in RDF/XML sollte aber möglich 
sein.

Wenn Sie das Rad nicht gänzlich neu erfinden wollen, dann sollten Sie 
zumindest mal einen Blick auf die bzw. in den Quellcode der Semantic 
Information Retrieval Engine SIREn [1] werfen. Diese verwendet unter der 
Haube ebenfalls Solr/Lucene und steht unter der Apache 2.0 Lizenz.

Beste Grüße,
Sascha Szott

p.s. Vielleicht bietet ja die DNB in Zukunft auch direkten Zugriff auf 
ihren Triplestore an. Dann könnte man sich auf einfache Weise per SPARQL 
CONSTRUCT Teilgraphen (in RDF/XML) extrahieren und hätte sich so einen 
Vorverarbeitungsschritt gespart.

[1] http://siren.sindice.com/


@Joachim
Danke für den Tip mit sparqlite, aber ich versuche mich gerade aus
meinem Denkkorsett der klassischen Kataloge zu lösen. Darum erst mal Solr.

@Till
Das Heilige Römische Reich Deutscher Nation
(http://de.wikipedia.org/wiki/Heiliges_R%C3%B6misches_Reich) ist einfach
das Standardbeispiel für schlechte Einbindung von Normdaten. Auch bei
HeBIS und sogar bei der DNB erhält mensch so imposante Treffermengen.
Als Gegenbeispiel kann ich dir aber das Schlagwort "Computerlinguistik"
(Synonym zu >http://d-nb.info/gnd/4035843-4) geben. Noch sind Dewey, RVK
und andere Klassifikationen in den Katalogen noch nicht so verbreitet,
dass wir darauf verzichten können.
Genug SWD, du hast geschrieben:

Mit der GND haben wir noch nichts gemacht. Wir kämpfen derzeit mit der
sinnvollen Anwendung von Normdaten, wie sie klassisch genutzt werden

Damit kämpfen viele und ich hoffe von euren Erfahrungen profitieren zu
können. Ich will versuchen etwas gegen den Strich zu denken. Was spricht
dagegen, unter einer Oberfläche zwei oder mehrere Indices zusammenzufassen?
Zum Beispiel einen für die Normdaten und einen für die Titeldaten, also
den uralten Gedanken des Normalisierens auch auf Indices anzuwenden. OK,
bei den heutigen Plattenkapazitäten macht sich die Ersparnis von
einigen/vielen Gigabyte im Index nicht wirklich bemerkbar aber ich
vermute, das die Vorteile im Handling die aufwendigere Bearbeitung von
Suchanfragen wieder wett machen.



Nochmal Danke an Alle

Viele Grüße
Uwe Reh


-- 
Sascha Szott
Kooperativer Bibliotheksverbund Berlin-Brandenburg (KOBV)
c/o Konrad-Zuse-Zentrum fuer Informationstechnik Berlin (ZIB)
Takustr. 7, D-14195 Berlin
Zimmer 4357
Telefon: (030) 841 85 - 457
Telefax: (030) 841 85 - 269
E-Mail: szott@xxxxxx
WWW: http://www.kobv.de

-- 
http://www.inetbib.de

References:
- [InetBib] HatSchonWer: Die GND mit Solr indexiert
  - From: Uwe Reh
- Re: [InetBib] HatSchonWer: Die GND mit Solr indexiert
  - From: Sascha Szott
- Re: [InetBib] HatSchonWer: Die GND mit Solr indexiert
  - From: Uwe Reh

Prev by Date: [InetBib] Lernort Bibliothek - Spannendes Projekt in NRW mit Beteiligung der Mitglieder der Zukunftswerkstatt
Next by Date: [InetBib] W3C startet Library Linked Data Incubator Group
Previous by thread: Re: [InetBib] HatSchonWer: Die GND mit Solr indexiert
Next by thread: [InetBib] Harvesting von Netzpublikationen
Index(es):
- Date
- Thread

Listeninformationen unter http://www.inetbib.de.