[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [InetBib] warum dieses PDF nicht gefunden werden KANN

Date: Thu, 25 Jun 2009 10:07:01 +0200
From: Sebastian Wolf <sebastian.wolf@xxxxxxxxxxxxxxxx>
Subject: Re: [InetBib] warum dieses PDF nicht gefunden werden KANN

Hallo Herr Sander-Beuermann, Hallo Herr Eberhardt, liebe Liste,

Wolfgang Sander-Beuermann schrieb:

Das genannte Dokument wird ja nicht mal in der Volltextsuche des
Servers www.freidok.uni-freiburg.de selber gefunden (die Google
basiert ist).


Das muss auch so sein - denn bei der Freidok-Volltextsuche handelt es
sich um eine Google-Custom-Search, d.h. im Hintergrund wird die Suche
auf "site:freidok.uni-freiburg.de" eingegrenzt. Da kann nicht mehr
herauskommen, als bei Google selbst :)

Ich habe nun auf dem Server www.freidok.uni-freiburg.de nach einem 
solchen Klickweg zu dem Dokument gesucht - aber nichts gefunden.
Falls ich was uebersehen habe, danke ich fuer einen Hinweis!!


Wie Herr Eberhardt schon schrieb, gibt es einen Weg. Es muss ihn auch
geben, denn der Metadatensatz ist ja auch von Google erfasst:
http://www.google.de/search?q=%22Die+Vener%2C+ein+Gm%C3%BCnder+Stadtgeschlecht+%22

Und von hier aus hätte Google nur noch dem Link aufs PDF folgen müssen.
 Aber irgendetwas hat den Googlebot offenbar abgeschreckt: Dateigröße,
Timeout, heute mal keine Lust auf PDFs - wer weiß das schon? ;)

Von unserem Hochschulschriftenserver hat Google z.B. 769 Eingangsseiten
indexiert, aber nur 735 PDFs und Postscripts. Zu mind. 34 von Google
indexierten Eingangsseiten wurde also das dazugehörige PDF/PS nicht
indexiert. Da einige Dokumente über mehrere PDFs/PS-Dateien verfügen,
dürfte der Anteil sogar noch höher liegen.

Keine Suchmaschine auf der Welt ist eben vollständig. Das ist eine
Binsenweisheit, die gilt, seit dem es Suchmaschinen gibt und es ist auch
immer der erste Punkt, den ich in einen Schulungen zur
Internet-Recherche anspreche.

Allerdings gibt es die Möglichkeit, eine Suchmaschinen-Sitemap zu
erstellen. Hier werden alle URLs aufgelistet, die eine SuMa crawlen soll
 (Google, Yahoo und Bing halten sich auch an diesen Standard). Infos
dazu hier: http://www.sitemaps.org/de/
Mir ist aber nicht bekannt, dass ein deutscher Repository-Betreiber so
etwas schon einsetzt.

Noch merkwürdiger ist übrigens, dass man häufiger auch mal z.B. mit
einer Phrasensuche die Seite nicht findet, obwohl die Seite mit genau
dieser Phrase indexiert wurde. Erst wenn man eine Stichwortsuche
durchführt, wird der Text gefunden. Gleiches gilt auch für eine
URL-Suche. Die URL ist indexiert wird aber bei einer Suche nach dieser
URL nicht gefunden. Diese Probleme finde ich bedenklicher, als das ein
oder andere PDF, dass nicht im Volltext von Google erfasst wurde.

Viele Grüße

Sebastian Wolf

-- 
Sebastian Wolf : sebastian.wolf@xxxxxxxxxxxxxxxx
Uni-Bibliothek Bielefeld, Abt. Elektronische Dienstleistungen
Tel.:      +49 521 1064044
Website:   http://www.ub.uni-bielefeld.de/
Bookmarks: http://del.icio.us/bibliothekswelt/
Feeds:     http://www.bloglines.com/public/bibliothekswelt/

-- 
http://www.inetbib.de

Follow-Ups:
- Re: [InetBib] warum dieses PDF nicht gefunden werden KANN
  - From: Wolfgang Sander-Beuermann

References:
- [InetBib] PDF-dateien im GoogleIndex
  - From: Karl Dietz
- Re: [InetBib] PDF-dateien im GoogleIndex
  - From: Karl Dietz
- [InetBib] warum dieses PDF nicht gefunden werden KANN, war: Re: PDF-dateien im GoogleIndex
  - From: Wolfgang Sander-Beuermann

Prev by Date: Re: [InetBib] BASE. Scirus. ...
Next by Date: [InetBib] Dublin Core und html-Dokumente mit Verweis auf Volltextdokumente
Previous by thread: Re: [InetBib] warum dieses PDF nicht gefunden werden KANN, war: Re: PDF-dateien im GoogleIndex
Next by thread: Re: [InetBib] warum dieses PDF nicht gefunden werden KANN
Index(es):
- Date
- Thread

Listeninformationen unter http://www.inetbib.de.