[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
[InetBib] Google Scholar etc. (war: Re: InetBib] Neue Suchmaschine von Q-Sensei bietet)
- Date: Wed, 13 Aug 2008 13:21:40 +0200
- From: Sebastian Wolf <sebastian.wolf@xxxxxxxxxxxxxxxx>
- Subject: [InetBib] Google Scholar etc. (war: Re: InetBib] Neue Suchmaschine von Q-Sensei bietet)
Hallo Herr Wagner, liebe Liste,
vielen Dank für Ihre ausführliche Antwort. Hier nun meine ausführliche
Antwort.
Alexander Wagner schrieb:
einen Streich. Google (aka <place your favourite search
engine here>) muss irgendwie "das gesamte" Internet
einsammeln. Irgendwie muessen die dabei priorisieren wie oft
sie eine Seite neu indexieren. Soweit ich das verstehe setzt
Google diese Prioritaet, zumindest auch, nach dem Pagerank,
d.h. eine Seite die hoch ranked wird oft aufgerufen, ggf.
oft geaendert und damit oft neu indexiert. Das ist auch
vernuenftig. Meistens.
Damit hat es in diesem Fall aber nichts zu tun. Google hat auch Seiten
von unserem Repository indexiert, die erst kürzlich (Juni 2008) erstellt
wurden. Es ist also eine mehr oder weniger sinnfreie Auswahl an PDFs aus
unserem Repository, die in Google zu finden sind. Die OPUS-Indexliste
mit allen Links auf die HTML-Eingangsseiten ist auch von unserer
Repository-Startseite verlinkt (allerdings so, dass sie nur für
Suchmaschinen-Robots "sichtbar" ist).
Man kann versuchen das zu verbessern, in dem man
haendisch(!) nach jedem Freischalten neuer Dokumente Google
Die händische Methode empfiehlt sich allenfalls bei Seiten, die nicht
über "normale" Links zugänglich sind. Google, Yahoo & Co. bieten die
Möglichkeit an, eine spezielle "Sitemap"-Datei im XML-Format mit einer
Liste von URLs zu erstellen, die dann von der SuMa abgegrast werden
kann. Infos dazu unter: http://www.sitemaps.org/de/
Bei Dokumenten aus OPUS-Systemen sollte dies aber nicht notwenig sein,
denn neue Dokumente sind z.B. immer über Browsing-Seiten verlinkt, die
von Google & Co. indexiert werden können. Damit sind auch die
HTML-Eingangsseiten und im Endeffekt auch die PDFs sofort indexierbar.
Natürlich muss man die SuMas auch ein wenig in Schutz nehmen, sie können
nicht einfach unbesehen jeden Link indexieren. Überall lauern Fallen für
die Robots. Linkfarmen, Online-Shops, die Millionen von URLs
produzieren, schlecht programmierte CMSe, Webmaster, die sich nicht
darum kümmern, die Robots in die richtigen Bahnen zu lenken. Das alles
ist die Regel, nicht die Ausnahme. Deshalb müssen SuMas auch
Vorsichtsmaßnahmen treffen, damit ein Robot nicht in eine solche Falle
tappt. Aber in meinem Beispiel scheint die Indexierung oder
Nicht-Indexierung einer Seite willkürlich zu erfolgen. Ein Link wird
indexiert, der nächste nicht. Auch das ist in SuMas übrigens eher die
Regel denn die Ausnahme.
Die Sache wird fuer Google ein bisschen besser, wenn sie, wie
BASE, die OAI-Schnittstellen harvesten. AFAIK machen sie das
fuer grosse Repositorien Gueteklasse arXiv. Deswegen muss
Das kann ich mir ehrlich gesagt nicht vorstellten, dass Google diesen
Aufwand betreibt - nicht einmal Google Scholar harvestet direkt die
OAI-Schnittstellen. Nur mal nebenbei: Google Scholar kümmert sich auch
nicht um die Original-Metadaten aus den Dokumentenservern, sondern
indexiert Autorennamen etc. per automatischer Texterkennung. Die
Metadaten von Dokumentenservern sind in der Tat manchmal erstaunlich
schlecht, aber die automatische Autorenerkennung macht z.B. "F
Password", "D Surgery" und "I View" zu erfolgreichen und vielzitierten
Autoren in Google Scholar.
aber schon fast unvermeidlich ist. Ganz platt: wen
interessiert denn schon irgendeine Disseratation verglichen
mit dem Interesse, dass z.B. diese Veranstaltung in China
gerade hervorruft. Also auf der Skala von 6 Mrd.
Hier sollte man Google und Google Scholar klar voneinander trennen. Dass
die allgemeine Google-Suche nicht jede Diss. indexiert, ist schon klar.
Und dass wissenschaftliche Treffer in der Masse an anderen Dingen bei
Google untergehen, ist auch klar. Google Scholar ist aber eine
wissenschaftliche Suchmaschine. Hier kann ich doch zumindest erwarten,
dass Repositories mindestens so vollständig indexiert sind, wie im
allgemeinen Google - aber der Witz ist ja, dass das allgemeine Google in
dieser Hinsicht vollständiger ist als Google Scholar.
Ich habe meine gestrige Suche in unserem Repository etwas modifiziert
und nach der Phrase "Zugang zum Volltext" gesucht, mit der ja jede
HTML-Eingangsseite zu einem Dokument gekennzeichnet ist. Hier das Ergebnis.
Gesamt: 995
Yahoo: 899 (90%)
Google: 612 (61%)
Zum Vergleich - Google Scholar: 433 (44%)
Das sind übrigens nicht die Trefferzahlen, die die SuMas ausgeben, denn
die stimmen nie. Man muss sich schon bis zur letzten Trefferseite
durchgeklicken, erst dann erhält man die exakte Trefferzahl.
Ein "Key author" in unserem Bieson-Server ist laut Google Scholar
übrigens der allseits beliebte "F Schlagwörter" ;)
Bei Google Scholar sind übrigens auch neue Dokumente aus 2008 von
unserem Repository drin (hatte ich schon erwähnt, dass die Suche nach
Erscheinungsjahren bei Google Scholar völlig unbrauchbar ist?).
Es ist klar, dass man Google nicht mit diesem oft auch übertriebenen
bibliothekarischen Exaktheit kommen kann. Wenn man möglichst viele
Dokumente in kurzer Zeit indexieren will, muss man Abstriche machen -
aber ich finde, man muss bei Google Scholar schon sehr viele Abstriche
machen. Irgendwie nachvollziehbar sollten die Ergebnisse schon sein.
Das sind sie aber gerade bei Google Scholar nicht, d.h. Google Scholar
ist bei der Ausgabe und Aufbereitung von meist gut strukturierten,
wissenschaftlichen Seiten deutlich schlechter als Google, bei der
Aufbereitung unstrukturierter Webseiten mit allen möglichen Inhalten. Da
sollte man sich schon fragen, woran das liegt.
Relevanz der Treffer. Davon ausgehend, dass Hr. Wolf
sicherlich oben die Doubletten bereinigt hat die gerade
Google tonnenweise produziert und die das suchen in den
Treffern schon recht unerquicklich machen koennen.
Welche Dubletten meinen Sie genau? Ich habe bei meiner gestrigen Suche
ja nur nach PDF-/PS-Dokumenten auf unserem Server gesucht. Und da gibt
es keine Dubletten. Man muss ja Google erst einmal "zwingen", dass alle
Dokumente überhaupt angezeigt werden (echte oder vermeintliche Dubletten
werden ja von Google erst mal ausgefiltert - ganz am Ende der
Trefferliste gibt es dann einen Link, über den man die Suche dann noch
einmal durchführen kann, sich aber auch wirklich alle Treffer anzeigen
lassen kann).
Das von Hr. Hehl angefuehrte Paper zielt, soweit ich das
sehe, im wesentlichen darauf ab, festzustellen dass einige
Disziplinen im WoS nicht adaequat repraesentiert sind. Als
Gruende werden die geringe Abdeckung nicht englischer Texte
bzw. auch die zu geringe Abdeckung einiger Arbeitsgebiete
oder Regionen angefuehrt. Das ist sicherlich im WoS schon so
Das nennt Jascó in seinem Artikel auch eine der großen Stärken von
Google Scholar. Und das ist auch richtig. Google Scholar ist einfach zu
bedienen. Es ist schnell. Und man kommt sehr häufig direkt an den
Volltext, findet Links auf den eigenen Bibliothksbestand oder auf einen
lizenzierten Zugang, den die eigene Bibliothek anbietet. In dieser
Hinsicht ist GS vielen Fachdatenbanken und Bibliothekskatalogen
überlegen - und deshalb wohl auch so beliebt. Es wäre unsinnig, diese
Vorteile in Abrede zu stellen. Es wäre aber auch falsch, die Probleme,
die es bei Google Scholar gibt, unter den Teppich zu kehren.
Viele Grüße
Sebastian Wolf
--
Sebastian Wolf : sebastian.wolf@xxxxxxxxxxxxxxxx
Universitätsbibliothek Bielefeld : Gruppe Elektronische Dienstleistungen
Tel.: +49 521 1064044
Website: http://www.ub.uni-bielefeld.de/
Bookmarks: http://del.icio.us/bibliothekswelt/
Feeds: http://www.bloglines.com/public/bibliothekswelt/
Listeninformationen unter http://www.inetbib.de.