[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: Internet-Archiv
- Date: Wed, 3 Sep 1997 20:04:16 +0200
- From: "Wolfgang Bleh" <wbleh _at__ tap.de>
- Subject: Re: Internet-Archiv
Hallo!
Ulrich Babiak schrieb
> Dennoch gibt es erste Versuche - ich empfehle in diesem Zusammenhang
> einen Blick auf www.alexa.com und www.archive.org. Dort kann man
> heute schon Seiten bekommen, die auf den Originalservern nicht mehr
> vorhanden sind.
Dazu moechte ich einiges anmerken. Das hier
gemeinte Projekt, das im vergangenen Jahr als
*Ressource fuer zukuenftige wissenschaftliche
Nachforschungen* gegruendet wurde, hat mich
im ersten Moment begeistert. Toll! Eine Grundlage
zur Darstellung der WWW-Genese. Doch schon
damals fragte ich mich, wie das wohl gehen soll,
wenn ich doch selbst fast taeglich an meinen Seiten
*schraube*. So oft _kann_ kein Spider bei mir
vorbeischauen. Und wie sollte das bei Seiten aussehen,
die eigentlich gar nicht als *statische* HTML-Datei
vorliegen, sondern durch Datenbankanbindung o.ae.
generiert werden?
Nachdem jetzt Alexa (abgeleitet von library of
alexandria) an den Start ging, wurde mir einiges
klar. Ich will jetzt nicht en detail gehen (ich habe
das Projekt in einem Beitrag naeher beschrieben:
http://www.intern.de/97/17/4.htm), aber Alexa ist
m.E. nur sehr bedingt tauglich:
1. Der Datenbestand ist aehnlich spaerlich wie bei
anderen Suchmaschinen (nichts anderes ist Alexa).
Bei mehreren Tests habe ich festgestellt, dass
maximal 1/3 aller HTML-Dateien einer Site im
Volltext gespeichert (nicht indiziert) werden. Dabei
werden Aktualisierungen nicht beruecksichtigt.
Einmal gespidert, werden Seiten wohl nie mehr
besucht.
2. Die weiteren Angaben der Alexa-Software sind
mehr als zweifelhaft. Alexa gibt (angeblich) an, wie
*bekannt* eine Site ist. Wie das gehen soll, wird
nicht erwaehnt, aber vermutlich wird innerhalb des
gesamten Datensatzes ausgelesen, wie oft ein Link
auf die entsprechende Domain von anderen Sites
gesetzt wurde.
3. Die Seiten, die es inzwischen nicht mehr gibt bzw.
die bei Alexa *archiviert* sind, koennen kaum genutzt
werden. Sie sind nicht auf einer Festplatte, sondern
auf einem Band gespeichert. Der Abruf dauert laut
Alexa bis zu einer Viertelstunde. Ich habe laenger
gewartet. Sehr, sehr unpraktisch!
Ueberhaupt wurde mir erst nach der Veroeffentlichung
der Alexa-Software klar, wozu das Ganze dient.
Der Clou bei Alexa ist es naemlich, dass in einem
weiteren Fenster *Linkempfehlungen* zu thematisch
aehnlichen Sites erfolgt. Und damit wird das Projekt
finanziert. Wer sich hier einkauft, erhoeht die
Besucherkontakte auch ohne Banner.
Trotzdem Anerkennung: Bisher habe ich festgestellt,
dass viele (etwa 25-50%) der Linkempfehlungen
wirklich auf *verwandte* Sites gerichtet sind. Und
dieses Ergebnis ist gar nicht so schlecht.
> Ich werde dieses "Internet Archiv" im Oktober
> besuchen und - bei Interesse - gern darueber berichten.
Zumindest mich wuerde das brennend interessieren!
Gruss
Wolfgang Bleh
**********************************************
Redaktion Internet Intern, Wolfgang Bleh
Tel.: 06732/960318 http://www.intern.de/
Listeninformationen unter http://www.inetbib.de.