[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

"crawlbare Indexliste"



Lieber Herr Schneemann, liebe Liste!

> Ich möchte also gerne wissen, was eine 'crawlbare Indexliste' 
> auszeichnet. 

Diese Frage koennte ja generell von Interesse sein, daher will ich hier
in der Liste auch gern was dazu sagen/schreiben (die speziellen Probleme
klaeren wir m.E. besser bilateral, es sei denn, sie haben
allgemein interessante Aspekte).

Also, was ist (bzw. was meine ich - ich weiss nicht, ob es dafuer
eine offizielle Definition gibt) mit einer "crawlbaren Indexliste"?
Am besten sieht man es wohl an einem Beispiel:
http://opus.tu-bs.de/opus/volltexte/opus-index/opus-indexliste.html

In der HTML-Datei "opus-indexliste.html" sind die URLs der
Hochschulschriften (und *NUR* der Hochschulschriften!), des Servers
opus.tu-bs.de als Linkliste untereinander verzeichnet. Eine solche Liste
erlaubt es - vorausgesetzt korrekte robots.txt-Datei und Zugriffsrechte
auf dem Server - dass der Crawler (auch genannt "Harvester, Gatherer,
Robot, Webspider, Spider, uvam.") einer Suchmaschine dort
"entlangwandert", so wie ein menschlicher Nutzer das mit vielen Klicks
tun wuerde.

In dieser "crawlbaren Indexliste" sollten auch keine URLs zu anderen
Zielen auf dem Server stehen, weil sonst wieder Irrelevantes (Mensa-
Speiseplan, Oeffungszeiten usw.) eingesammelt werden koennte, und dann
haendisch korrigiert werden muss. Allzwecksuchmaschinen, wie der
allseits beliebte Markfuehrer, haben es da einfacher: als
"Muellschlucker" ;-) machen diese sich keine Gedanken um Irrelevantes
und nehmen einfach ALLES, das ist technisch einfacher. Auch um die
robots.txt-Konfiguration und das Robot-Exklusion-Protokoll kuemmert sich
der Marktfuehrer nur manchmal - nunja, das ist ja keine
Gesetzesvorschrift, nur gutes Benehmen eines Crawlers/Robots - aber das
stoert auch eh niemanden, da sowieso alle "nur das eine wollen ..." ;-))

Mit den besten Gruessen,
Wolfgang Sander-Beuermann
--
Dr. Wolfgang Sander-Beuermann        Tel.: use email         wsb@xxxxxx
Projektleiter Suchmaschinenlabor     http://metager.de/suma.html
Regionales Rechenzentrum fuer Niedersachsen (RRZN), Univ.Hannover
http://www.rrzn.uni-hannover.de/


Listeninformationen unter http://www.inetbib.de.