On Fri, 29 Jul 2011 16:45:48 +0200
"Stephan Kellner"<Stephan.Kellner@xxxxxxxxxxxxxxx> wrote:
Sehr geehrte Listenteilnehmer,
Das vom Münchener Digitalisierungszentrum (MDZ)
entwickelte Angebot
verwendet die Open-Source-Software Solr. Features wie
Autovervollständigen, Näherungssuche, die automatische
Erkennung von
Orts- und Personennamen sowie automatisch erschlossene
Inhaltsverzeichnisse erleichtern die Suche. Die Abfrage
kann auf
einzelne Signaturenfächer eingegrenzt werden. Erstmals
zeigt die
Vorschau die Treffer in einem Ausschnitt aus dem
Originaldigitalisat
(„KeyWords In Native Context“).
Der uebliche Schrott des MDZ. Bei einer Buchsuchmaschine
ist entscheidend, ob sie sich bei der Eingabe von zwei oder
mehr Suchbegriffen dafuer entscheidet, was ich das
Seitenprinzip nenne, oder fuer das Dokumentprinzip.
Google Books hat sich aus guten Gruenden fuer das
Seitenprinzip entschieden, nimmt aber noch einige Worte von
der naechsten Seite hinzu.
Sucht man nach Ludwig Baumann, findet man einen Treffer in
der Google Buchsuche genau dann, wenn Ludwig und Baumann
gemeinsam auf einer Seite vorkommen (oder auf zwei
folgenden).
Bezogen auf die Seiten entspricht das Dokumentprinzip einem
ODER: Auf der gefundenen Seite kommt Ludwig ODER Baumann
vor.
http://bavarica.digitale-sammlungen.de/de/fs1/object/context/bsb10344318_00006.html?context=baumann&action=Finden%21&contextSort=facs%2Cascending&contextRows=10&contextType=scan&prox=true&ngram=true&hl=scan&mode=simple&fulltext=ludwig+baumann
Ludwig erscheint im Buch siebenmal, Baumann einmal (und auf
der gleichen Seite erscheint auch Ludwig). Google wuerde
nur den Scan 9 mit beiden Begriffen als Treffer ausweisen,
das MDZ hat aber sieben Treffer.
Wenn man nicht die Möglichkeit einer Phrasensuche (z.B.
"Ludwig Baumann") hat, wird sehr schnell klar, dass die
Suche mit zwei Begriffen weitgehend wertlos ist, wenn der
eine Begriff irgendwo im Buch erscheint und der andere
irgendwo anders:
http://bavarica.digitale-sammlungen.de/de/fs1/object/context/bsb10381201_00001.html?prox=true&ngram=true&hl=scan&fulltext=rinderbach+gem%C3%BCnd&mode=simple&context=rinderbach%20gem%C3%BCnd
So weit verbreitet das Dokumentprinzip auch ist
(HathiTrust, JSTOR usw.), dem Suchenden hilft letztlich nur
das Seitenprinzip.
Klaus Graf