[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: URL's aus WWW - Seiten extrahieren

Date: Wed, 16 May 2001 10:27:47 +0200
From: "Michael Schaarwaechter" <Michael.Schaarwaechter _at__ UB.Uni-Dortmund.de>
Subject: Re: URL's aus WWW - Seiten extrahieren

> On Wed, May 16, 2001 at 09:39:51AM +0200, Dietmar Bussmann wrote:
> > wir sind auf der Suche nach einer Software, die automatisch URL's und
> > Mailadressen aus WWW - Seiten extrahieren kann, um sie dann in ein
> > Text - File oder über ODBC in eine Datenbank zu schreiben.
> falls es nur darum geht URL's als Links zu extrahieren, dann ist das mit den
> Perl-Klassen HTML::Parse und HTML::Element sehr einfach moeglich. Hier ist so
> ein quick'n'dirty Beispiel:
> Oliver Flimm

Ja, da gibt es viele Moeglichkeiten. Ich habe mal ein solches 
Programm, ebenfalls in Perl, erstellt, was allerdings HTML::LinkExtor 
benutzt. Die Zielsetzung bei meinem Programm war, ein Verzeichnis 
aller internen und externen Links eines oder mehrerer Webserver(s) zu 
erstellen, um damit eine Positivliste fuer einen Proxy zu erstellen. 
Man gibt dem Programm einen oder mehrere Startlinks und es klappert 
alles ab, was darunter liegt, per Webzugriff online. Es werden also 
im Ergebnis nicht einzelne *.htm(l) etc. aufgelistet sondern nur die 
Verzeichnisse. Ausserdem werden doppelte Saetze ausgefiltert. 

Ist schon interessant, auf wieviele Seiten eine normale deutsche UB 
verweist ... ;-)

Mein Programm laeuft z.B. auf einem Linuxrechner mit Perl und ein 
paar normalerweise sowieso vorhandenen Modulen. Man kann es mit etwas 
Perlkenntnissen sicher an das oben beschriebene Problem anpassen. Wer 
es haben moechte, schicke mir eine persoenliche (!) Mail.

Mit freundlichen Gruessen,
Michael Schaarwaechter

-- 
 Michael.Schaarwaechter _at__ ub.uni-dortmund.de 
 Germany, Uni Dortmund, Library 
 http://www.schaarwaechter.de , http://www.inetbib.de 
 PGP-Key: http://www.schaarwaechter.de/misc.asc

Prev by Date: Re: URL's aus WWW - Seiten extrahieren
Next by Date: Re: URL's aus WWW - Seiten extrahieren
Previous by thread: Re: URL's aus WWW - Seiten extrahieren
Next by thread: Re: URL's aus WWW - Seiten extrahieren
Index(es):
- Date
- Thread

Listeninformationen unter http://www.inetbib.de.