[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Bielefeld Academic Search Engine



> > Man darf z.B. auch gern ausprobieren, wieviele der von
> mir unter
> > http://wiki.netbib.de/coma/NibelungenLied angezeigten
> Quellen in
> > Suchmaschinen vorhanden sind. Bei uns
> Geisteswissenschaftlern gilt
> > eben anders als villeicht in der Oekonomie: Klasse vor
> Masse, und da
> > sind gerade die wichtigsten Arbeiten NICHT in Google.
> 
>   Ich habe drei Links probiert  Alle sind bei Google. 

Das ist laeppisch. Natuerlich kann man ohne weiteres drei
Links finden, die bei Google sind - alle Links im vorderen
Teil der Seite sind natuerlich in Google. Ich dachte
eigentlich, dass es klar ist, dass nur Inhalte von
Hochschulschriftenservern und Digitalisierungsprojekten
zaehlen.

Fuer diese gilt:

menhardt z (wie andere gallica-inhalte nicht in google)

porto in google (moeglicherweise erst nach meinen links
darauf!)

herman nibelungen-legend (nicht in google)

wenskus und heuwieser (nicht in google)

hagen (alles nicht in google)

vilmar in google

ub bielefeld wohl alle nicht in google (ueberprueft anhand
von bodmer chriemhilde)

--

Wenn eine Erfahrung, die ich Tag fuer Tag bei der Arbeit
mit Internetquellen aus verschiedenen (nicht nur
historischen) Fachbereichen mache und die ich hier mehrfach
nachweisbar dokumentiert habe, als empirisch haltlos
hingestellt wird, halte ich das fuer unangemessen.

(Ebenso halte ich es fuer unangemessen, wenn mir der
Administrator fuer scharfe Kritik an einer maechtigen und
einflussreichen Institution wie der UB Bielefeld eine Ruege
erteilt. Ich zwinge niemanden, meine subjektive Meinung zu
teilen - aber der Administrator zwingt mich zu einer Form
der Hoeflichkeit, die den Bereich der Meinungsfreiheit, der
ja im Web inzwischen mehr und mehr reduziert wird,
unertraeglich einengt. Ich finde bei allem Verstaendnis
fuer seine Waechterrolle: Herr Schaarwaechter gebaerdet
sich mehr und mehr als Zensor.)

Zurueck zum Thema. Anleitung: www.inetbib.de aufsuchen,
klaus graf freidok google eingeben und die dort in 20
Beitraegen von mir besprochenen Treffer anhand des heutigen
Stands ueberpruefen, z.B. aus dem Jahr 2002

http://www.ub.uni-dortmund.de/listen/inetbib/msg09462.html

Ich habe mal die dort angegebenen Google-Links zu Freidok
angeklickt: Wenige Arbeiten werden zusaetzlich gefunden,
eine nicht mehr, die meisten sind nach wie vor invisible.

Wenn es um grosse Ergebnismengen geht, so muss man
natuerlich bei der Interpretation von entsprechenden
Google-Abfragen vorsichtig sein (auch mit der site-Suche).

Von der site:freidok.uni-freiburg.de (derzeit 1077
Dokumente laut Freidok-Suche, was aber wohl nicht stimmt,
es muessten 1284 sein:
http://www.freidok.uni-freiburg.de/volltexte/1284/) hat
Google 249 PDFs (site ohne Eingrenzung: 961):

http://www.google.de/search?as_q=&num=100&hl=de&ie=UTF-8&btnG=Google-Suche&as_epq=&as_oq=&as_eq=&lr=&as_ft=i&as_filetype=pdf&as_qdr=all&as_occt=any&as_dt=i&as_sitesearch=freidok.uni-freiburg.de

Das ist zugegebenermassen besser als etwa vor zwei Jahren.

Eingangsseiten ("Eingang zum Volltext") findet Google 207:

http://www.google.de/search?num=50&hl=de&ie=UTF-8&q=site%3Afreidok.uni-freiburg.de+%22eingang+zum+volltext%22&meta=

Selbst wenn PDFs und Eingaenge (HTML) ueberschneidungsfrei
sein sollten, was nicht anzunehmen ist, hat Google weniger
als die Haelfte aller Freidok-Dokumente, wobei Freidok
einer der aktivsten deutschen Hochschulschriftenserver
(auch bei der Einwerbung von Aufsaetzen) ist.

Beispiel: der Kunsthistoriker Schlink (hier bereits vor
laengerem bespochen, s.u.):

http://www.google.de/search?q=freidok+schlink&num=50&hl=de&lr=&ie=UTF-8&filter=0

freidok volltext schlink
soll Aufsaetze von Schlink finden (Teilmenge, es gibt auch
ein irrelevantes Lehmann-PDF).

Google hat keinen Treffer!! Auch nicht wie folgt:
http://www.google.de/search?num=50&hl=de&ie=UTF-8&q=%22wilhelm+schlink%22+site%3Afreidok.uni-freiburg.de&meta=

Metager (Forschungsportal) findet derzeit genau einen
Freidok Volltext-Eingang (Nr. 454). Metacrawler.de hat Nr.
456 und 451 (so auch MSN.de). Ithaki und Metacrwler.com
hatten als internat. Suchmaschinen keinen. Yahoo.de hat 456
und 452.

Also insgesamt 3 Treffer (von 12 Publikationen Schlinks in
Freidok!)

Zum Vergleich Dez. 2002:
http://www.ub.uni-dortmund.de/listen/inetbib/msg10045.html

Da sah es noch viel besser aus bezueglich
Google-Alternativen. Scirus bringt nichts mehr, ebensowenig
campus-search, das damals alle Aufsaetze hatte.

--

Wem das zu Freiburg-zentriert ist: bei MIAMI sieht es nicht
anders aus. Ich habe leider eine sitzungsabhaengige Adresse
angegeben.

Vom juristischen Autor Hoeren - einem der wichtigsten
Informationsrechtler - sind 130 (!) Texte in MIAMI. Mit

http://www.google.de/search?num=50&hl=de&ie=UTF-8&q=hoeren+site%3Amiami.uni-muenster.de&meta=

wird davon genau einer gefunden.

Hier ist mir noch nicht mal eine gescheite Suchanfrage fuer
Metager eingefallen (thomas hoeren miami muenster bringt
nix).

Dass MIAMI jede Menge Maengel hat, habe ich des oefteren
angesprochen - derzeit sind z.B. nur die eingebrachten
Dissertationen in Bibliothekskatalogen und im OAIster
auffindbar.

--

Bei der Opus-Metasuche habe ich mal als Verfasser/in Graf
eingegeben und je nach Fachbereich findet man auch hier,
dass etliche Dissertationen/Arbeiten nicht in Google sind,
ohne dass ich aber Lust auf eine quantitative Auswertung
habe.

Beispiele fuer Arbeiten nicht in Google:
Giessen - Ernährungsberatung
Kaiserslautern: Bahnplanung (aber auf anderem Server
Aufsatz nochmals)
FH Giessen: beide Arbeiten nicht

--

Zur Frage der Verlinkung:

Es ging nicht darum, was wuenschenswert ist, sondern um
faktische Verlinkung in Linksammlungen in den von mir
ueberblickten geisteswissenschaftlichen Faechern (das sind
nicht alle). Wer behauptet, dass Dissertationen und andere
Inhalte des invisible Web in grossem Umfang in Linklisten
einbezogen werden, moege das bitte beweisen. Natuerlich
gibt es etliche Ausnahmen, so die vorbildliche Auswertung
von Digitalisierungsprojekten weltweit fuer das Fach
Aegyptologie:
http://www.ub.uni-heidelberg.de/helios/fachinfo/fachref/aegypt/online.htm

--

Zusammenfassende Ueberlegungen:

Ausgangspunkt war die Frage, ob man wirklich viel Geld
investieren sollte, eine akademische Suchmaschine zu
entwickeln.

Dass die Art und Weise, wie Bielefelds BASE realisiert
wurde, fuer mich ausserordentlich unbefriedigend ist, ist
mehr als deutlich geworden.

Davon unabhaengig ist aber die Frage, ob es genuegt, sich
auf Google zu verlassen, das ja die wichtige Fachliteratur
nachweise.

Das ist eine voellig unbewiesene Behauptung, die allenfalls
fuer bestimmte Fachgebiete mit reger Verlinkungskultur
gelten mag.

Es ist in der Diskussion bereits vor diesem Beitrag
plausibel gemacht worden, dass es verhaengnisvoll ist, sich
allein auf Google zu verlassen, wobei allerdings im
Vergleich von vor 2 Jahren Rueckschritte bei den grossen
Konkurrenz-Suchmaschinen zu verzeichnen sind (v.a. Ausfall
von Alltheweb).

Obwohl ich seit Jahren wiederholt hier angemahnt habe, dass
Forschungsportal.net Digitalisierungsprojekte und
Hochschulschriftenserver einbeziehen sollte, ist man
derzeit noch weit davon entfernt (siehe oben die Ergebnisse
zu Freidok). Von daher ist es plausibel, die Arbeit an
besseren (Volltext-)Suchmaschinen wie BASE zu foerdern -
das Forschungsportal bringt es einfach nicht und wird es
wohl auch nie bringen.

Noch nicht erwaehnt wurde die Groessen-Begrenzung bei
Google auf 100 KB. Wer aus einer journalfixierten oder
proceedingsfixierten Disziplin mit kurzen Beitraegen kommt,
kann nicht nachvollziehen, dass es sinnvoll ist, grosse
PDFs als Volltexte in Suchmaschinen wie BASE einzubeziehen.
Der Ansatz von BASE einer Volltextsuche in Textdokumenten
ist dabei grundsaetzlich nicht zu kritisieren.

Es kann einer Suchmaschine fuer das (weitgehend) invisible
Web der Hochschulschriftenserver und
Digitalisierungsprojekte wie BASE auch nicht
entgegengehalten werden, dass prinzipiell ueberhaupt keine
Inhalte invisible sein muessten. Man kann
Digitalisierungsprojekte und Hochschulschriftenserver ohne
riesigen Aufwand suchmaschinenfreundlich gestalten
(Aronsson). Die Tatsache, dass das hier wiederholt
angemahnt wurde, die Betreiber solche Einwaende aus
Inkompetenz oder anderen Gruenden ignorieren, darf
natuerlich nicht dazu fuehren, auf einen Zeitpunkt (St.
Nimmerleinstag?) zu warten, zu dem es alle kapiert haben.
Wenn alle es kapiert haben, koennte man BASE ja auch wieder
abschalten ...

Wenn man nicht zur Verdummungsspirale kommen will, die alle
Akademiker auf Google-Einwort-Suchidioten reduziert, muss
man ihnen unterschiedliche und differenzierte
Suchmöglichkeiten beibringen und solche bereitstellen.

a) Nutzung thematischer Verzeichnisse

Die meisten Linksammlungen wissenschaftlicher Bibliotheken
sind schlecht und konzentrieren sich auf Basislinks, ohne
das invisible Web zu beruecksichtigen. Nochmals sei die
ruehmliche Ausnahme der Aegyptologie-Seite der UB
Heidelberg verwiesen.

(Die Verlinkung traegt dann auch dazu bei, wichtige
Beitraege im Suchmaschinenranking hoch anzusiedeln.)

b) Nutzung des Bibliothekskatalogs und des KVK

Hier geht es um Metadaten der Internetquellen.

In allen Bibliothekskatalogen sollte man idealerweise ein
Kaestchen ankreuzen koennen "Zusaetzlich
Online-Ressourcen", das die Meta-Suche in verschiedenen
Suchwerkzeugen fuer wissenschaftliche Internetquellen
ermoeglicht.

Dass man mit OASE, OPUS und OAISter zusammengenommen viele
wichtige Quellen von Hochschulschriftenservern nicht
findet, ist unter
http://wiki.netbib.de/coma/EprintArchive
fuer Nicht-Dissertationen bewiesen worden.

Es ist also ausserordentlich wichtig, Internetquellen (bzw.
deren Metadaten)kooperativ zu katalogisieren und sowohl im
Bibliothekskatalog als auch ueber Metasuchen verfuegbar zu
machen.

Im KVK sollte also auch OASE integriert werden (und
natuerlich in OASE OPUS)!

c) Nutzung des OAIster und anderer Harvester

Die Open Acess Community, die mit Recht dafuer kaempft,
dass moeglichst viel an wissenschaftlicher Fachliteratur
nach OA-Grundsaetzen im Web verfuegbar ist, knuepft an den
Open Archives Initiative (OAI) Standard an und fordert
(z.B. Steve Harnad) die Anmeldung aller Eprintarchive mit
frei zugaenglichem = OA-Material bei den entsprechenden
Registern und Harvestern fuer OAI-Eprintarchive. Letztere
koennen die Metadaten einsammeln und fuer die
bibliothekskatalog-aehnliche Suche bereitstellen.
"Marktfuehrer" ist fachuebergreifend der OAIster.

Mehr zu diesem Thema:
http://archiv.twoday.net/stories/202469/

Leider ist nur ein Bruchteil der deutschen
Hochschulschriftenserver OAI-kompatibel. Hier muessten ALLE
Verbuende taetig werden (SWB ist da bereits aktiv, HBZ in
Planung).

d) Volltextsuchen

Ein Blick auf unter
http://wiki.netbib.de/coma/VolltextSuchen
zusammengestellte kommerzielle Volltextsuchen in
lizenzierten Inhalten mag plausibel machen, dass es
ungeheuer wichtig ist, wenn alle frei zugaenglichen
wissenschaftlichen Volltexte komplett durchsuchbar sind
(Google-Prinzip bis 100 KB). Nur mit Volltexten kann eine
Citation-Index-aehnliche Suche nach Literatur realisiert
werden, die ein bestimmtes Werk zitiert - siehe dazu auch
http://citeseer.ist.psu.edu/

Leider fehlt es schon auf der Ebene des einzelnen Servers
meist an Volltextsuchmoeglichkeiten, von Metasuchen ganz zu
schweigen.

Hier setzt BASE ein und dieser Ansatz ist prinzipiell
richtig.

Es ist natuerlich WICHTIG, die Moeglichkeiten a bis d in
einem oder mehreren (Fach-)Portalen zu KOMBINIEREN.

BASE leistet genau das noch nicht, naemlich die
Verknuepfung vorhandener Metadaten (z.B. HTML-Seite
"Eingang zum Volltext" mit
Zusammenfassung/Zeitschriftenartikel aus EEJ) mit dem
Volltext (z.B. PDF/Einzelseite aus dem EEJ-Artikel).

Grundsaetzlich sehe ich die Notwendigkeit, mehr "offene"
Suchmaschinenprojekte zu entwickeln. Offen im Sinn von Open
Source (Alternative zu Google - bleibt Google, auch wenns
an der Boerse ist, fuer immer kostenfrei???) und offen im
Sinn von individueller Konfigurierbarkeit (im Extremfall
Kommandozeilensuche!).

Klaus Graf
 








  






 


Listeninformationen unter http://www.inetbib.de.