[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: URL's aus WWW - Seiten extrahieren
> On Wed, May 16, 2001 at 09:39:51AM +0200, Dietmar Bussmann wrote:
> > wir sind auf der Suche nach einer Software, die automatisch URL's und
> > Mailadressen aus WWW - Seiten extrahieren kann, um sie dann in ein
> > Text - File oder über ODBC in eine Datenbank zu schreiben.
> falls es nur darum geht URL's als Links zu extrahieren, dann ist das mit den
> Perl-Klassen HTML::Parse und HTML::Element sehr einfach moeglich. Hier ist so
> ein quick'n'dirty Beispiel:
> Oliver Flimm
Ja, da gibt es viele Moeglichkeiten. Ich habe mal ein solches
Programm, ebenfalls in Perl, erstellt, was allerdings HTML::LinkExtor
benutzt. Die Zielsetzung bei meinem Programm war, ein Verzeichnis
aller internen und externen Links eines oder mehrerer Webserver(s) zu
erstellen, um damit eine Positivliste fuer einen Proxy zu erstellen.
Man gibt dem Programm einen oder mehrere Startlinks und es klappert
alles ab, was darunter liegt, per Webzugriff online. Es werden also
im Ergebnis nicht einzelne *.htm(l) etc. aufgelistet sondern nur die
Verzeichnisse. Ausserdem werden doppelte Saetze ausgefiltert.
Ist schon interessant, auf wieviele Seiten eine normale deutsche UB
verweist ... ;-)
Mein Programm laeuft z.B. auf einem Linuxrechner mit Perl und ein
paar normalerweise sowieso vorhandenen Modulen. Man kann es mit etwas
Perlkenntnissen sicher an das oben beschriebene Problem anpassen. Wer
es haben moechte, schicke mir eine persoenliche (!) Mail.
Mit freundlichen Gruessen,
Michael Schaarwaechter
--
Michael.Schaarwaechter _at__ ub.uni-dortmund.de
Germany, Uni Dortmund, Library
http://www.schaarwaechter.de , http://www.inetbib.de
PGP-Key: http://www.schaarwaechter.de/misc.asc
Listeninformationen unter http://www.inetbib.de.