[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: Programm zum Durchsuchen von Websites
- Date: Wed, 23 Mar 2005 16:58:29 +0100
- From: Stefan Groschupf <sg@xxxxxxxxxxxxxxx>
- Subject: Re: Programm zum Durchsuchen von Websites
Hallo,
kennt jemand ein Programm, das eine Website nach dort verlinkten
Dateien (Bilder, PDF
etc) absuchen kann, so dass man eine Liste der Pfade bekommt?
vielleicht ist Apache Nutch (www.nutch.org) einen Versuch wert. :-)
Nutch ist eigentlich eine Suchmaschine, verfügt aber über einen Crawler
den man mit Hilfe von Regulären Ausdrücken auf bestimmte Domains
einschränken kann.
Die geladenen Seiten werden einer Link-Analyse unterzogen und der so
genannte Linkgraph in ein Art Datenbank geschrieben.
Am besten mal dieses Tutorial probieren:
http://incubator.apache.org/nutch/tutorial.html
Anschließend die DB ausgeben mit diesem Befehl:
bin/nutch readdb db/ -dumppageurl
Ich hoffe das hilft.
Beste Grüße,
Stefan Groschupf
-----------information technology-------------------
company: http://www.media-style.com
forum: http://www.text-mining.org
blog: http://www.find23.net
Listeninformationen unter http://www.inetbib.de.