[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Erfassung der Hochschulschriften-Server in MetaGer (war: Dissertationen im Deep Web)
- Date: Wed, 25 Aug 2004 07:37:28 +0200 (MEST)
- From: wsb@xxxxxxxxxxxxxxxxxxxx (Wolfgang Sander-Beuermann)
- Subject: Erfassung der Hochschulschriften-Server in MetaGer (war: Dissertationen im Deep Web)
Liebe Liste,
das Subject dieser Mail fasst es bereits kurz zusammen: wir haben uns
dank der Diskussionen hier in inetbib die Hochschulschriften-Server und
Ihre Erfassung von Suchmaschinen angesehen. Das Statement von Herrn Graf:
> Wesentliche Teile der Inhalte der Hochschulschriftenserver
> sind nicht in den Suchmaschinen auffindbar
... trifft in voller Schaerfe zu, (bis vorgestern :-) auch fuer MetaGer.
Der Blick in die Hochschulschriften-Server zeigt dann andererseits, dass
dort wahre Schaetze verborgen sind (Dissertationen, Habilitationen,
usw), welche das "Licht der Suchmaschinen-Oeffentlichkeit bisher nie
erblickten".
Also haben wir uns daran gemacht, einen Crawler von uns ins diese Tiefen
des deep web zu schicken, und dessen Ergebnisse in MetaGer integriert.
Wenn Sie eine Suche in MetaGer machen, erkennen Sie nun die Ergebnisse
der Hochschulschriften-Server an der Kennzeichnung "Forschungsportal5".
Da diese Treffer sicherlich zu den qualitativ hochwertigsten zaehlen,
die das WWW zu bieten hat, werden sie durch unser Ranking "weit oben" in
der Ausgabe gelistet.
Wir haben bisher damit einen grossen Teil der HTML-Dokumente auf den
Hochschulschriften-Servern erfasst; PDF wird spaeter dazukommen. Mit
Sicherheit ist diese Erfassung nicht vollstaendig: Wenn Ihnen auffaellt,
was dort fehlt: bitte mailen Sie es mir! Falls Sie die Abfrage der
Hochschulschriftenserver separat testen moechten: hierzu gibt es
ein Interface unter der Adresse http://metager.de/index-hss.html
Wenn es *MOEGLICH* ist, etwas zu erfassen, was wir noch nicht haben,
dann werden wir das tun. Damit komme ich zu einem weiteren Punkt, den
ich hier ansprechen moechte: das Crawlen der Hochschulschriften-Server
ist von aussergewoehnlicher Schwierigkeit (deshalb werden es die
(anderen) Suchmaschinen bisher auch kaum im Index haben).
Daher soll auch folgendes hier mal glasklar gesagt werden:
Ohne die wertvolle Hilfe von Herrn Graf haetten wir das Crawlen
der Hochschulschriften-Server NIE hingekriegt!
Denn die Schaetze dieses deep web sind *SO* akribisch versteckt, dass
ohne Insiderwissen kaum ein Rankommen moeglich ist. Folgendes fiel
besonders auf:
- Einige Hochschulschriften-Server haben explizit das Crawlen
per robots.txt-Datei verboten; ob das Absicht ist??
http://miless.uni-essen.de/
http://www.uni-hohenheim.de/ub/opus/
http://ub-dok.uni-trier.de/
- Viele der der Opus-Hochschulschriften-Server haben ihren
crawlbaren Inhalt kaum verlinkt, sondern wir haben ihn nur
dank der Mitarbeit von Herrn Graf gefunden, dass diese Server
haeufig einer (offenbar geheimen ;-) Konvention folgen, dass
sich naemlich hinter
http://[OPUS-Servername]/volltexte/opus-index/opus-indexliste.html
die crawlbaren Schaetze verbergen.
Mir ist raetselhaft, warum diese genannte Adresse nicht generell
verlinkt wird - ob das Absicht ist???
- Weiterhin gibt es eine Fuelle von "Kleinigkeiten", die das Crawlen
schwer machen, wie:
- die Vermischung der Hochschulschriften mit anderen Server-Inhalten,
- die Verteilung der Hochschulschriften auf unterschiedliche weitere
Server,
- die unveraenderte Uebernahme dynamisch generierter "Monster-URLs",
wie z.B.:
http://publikationen.stub.uni-frankfurt.de/ergebnis.php?suchart=teil&Lines_$
*WARUM* wird es den Suchmaschinen so schwer gemacht, in diesen
wertvollen Bereich vorzustossen?
Vergessen Sie bitte ueber diese Frage (und diesen meinen bisher
laengsten Beitrag in inetbib ;-) nicht, mir mitzuteilen, wenn bei
unserer bisherigen Erfassung der Hochschulschriften etwas fehlt. Wenn es
"holbar"/crawlbar ist, dann werden wir das tun.
Mit den besten Gruessen,
Wolfgang Sander-Beuermann
--
Dr. Wolfgang Sander-Beuermann Tel.: use email wsb@xxxxxx
Projektleiter Suchmaschinenlabor http://metager.de/suma.html
Regionales Rechenzentrum fuer Niedersachsen (RRZN), Univ.Hannover
http://www.rrzn.uni-hannover.de/
Listeninformationen unter http://www.inetbib.de.