[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: Wieviel Sternlein stehen bzw.
Zum Thema: Wieviel Seiten hat das Internet?
Brewster Kahle hat im Internet eine Aufsatz wiedergegeben, der in aehnlicher
Weise auch
im Scientific American (March 1997) erschienen ist. Dort beschreibt er die
Archivierung
des gesamten Internets mit
Zahl der Adressen, Datenumfang in Gigabyte und die Veraenderungen (Zuwachs)
fuer :
WWW ; 400.000 ; 1.500 GB ; 600 GB/month
Gopher ; 5.000 ; 100 GB ; declining (from Veronica Index)
FTP ; 10.000 ; 5.000 GB ; not known
Netnews ; 20.000 discussions ; 240 GB ; 16 GB/month
Damit schaetzte er das World Wide Web auf 50 Mio. Seiten (1,5 Terabyte) mit
einem
turnover von nur 75 Tagen, in denen diese Seiten sich durchschnittlich
veraendern und einer
Verdopplungsrate von etwa einem Jahr.
C. Shapiro und H.R. Varian haben in ihrem neu erschienenen Buch "Information
Rules"
(Harvard Press 1999 S.8) die Menge an HTML-Seiten auf einen Umfang von 1,5
Mio.
Buechern geschaetzt. Sie argumentieren weiter, wenn von diese HTML-Seiten
etwa 10 % so
brauchbar sind wie Buecher, entspraeche das 150.000 Buchaequivalenten.
Zum Vergleich lagen die Schaetzungen im Weinberg Report (1963) fuer die
Informationsmenge der Library of Congress bei zehn hoch dreizehn Bit, das
sind rund
Zehntrausend Milliarden Bit. Dabei muss darauf hingewiesen werden, dass nur
ein geringer
Teil wirkliche Information ist. Ein noch wesentlich geringerer Teil stellt
Wissen, d.h.
wirklich begruendete Information dar. Ein grosser Teil ist Redundanz, d.h.
Information die wir
in dieser Bibliothek wiederholt finden. Ausserdem ist ein nicht
unerheblicher Teil auch
sogenanntes informationstheoretisches Rauschen, also unverstaendlich. Da man
im Weinberg
Report nur die Textmengen der LC beruecksichtigte gehen heutige
realistischere
Schaetzungen von annaehernd zwanzig Terabyte, das entspricht 20.000 Gigabyte
Speicherkapazitaet aus. Bei Beseitigung der Redundanz, die mit Computern
leicht
durchfuehrbar ist (aber auf Kosten der Datensicherheit geht) kann sich die
Menge
problemlos um den Faktor 10 bis 100 reduzieren. Zum Vergleich dazu hat der
Host
DIALOG 9,2 TB und LEXIS 5,9 TB. Damit gewinnt man ein realistisches
Verhaeltnis zur
Informationsmenge des Internet, dessen wirkliche Staerke damit im raschen
Zugriff im
raschen Wachstum und damit auch in seiner hohen Aktualitaet liegt.
Zum Aufsatz von S. Lawrence and C. Giles: Searching the World Wide Web,
in: Science
280 3 April 1998, S. 98-100 ist zu sagen, dass die dort gemachten
Behauptungen etwas
irrefuehrend sind, wie Petras, V. und Bank, M. in Nachrichten fuer
Dokumentation 49 (1998)
453-458 durch Analysen belegen konnten (s.Hilberer). Wichtig ist dabei die
Beruecksichtigung des zeitlichen Verzug bei der Aufnahme von WWW-Seiten in
die
invertierte Datei. Dies gilt bekanntlich auch fuer die klassischen
Online-Datenbanken und fuer
OPACs. Bei Altavista bemueht man sich (ebenso wie bei den anderen
Suchmaschinen mit
unterschiedlichem Erfolg) Mehrfachlinks auf das selbe Dokument zu erkennen,
womit aber
die Kopie eines Dokuments auf mehreren Servern (redundante Speicherung) noch
nicht als
solche erkannt ist. Man muss sich u.a. darueber bewusst sein, dass es
zahlreiche Seiten im
Internet gibt, die man aufrufen kann, die aber nicht unbedingt so verlinkt
sein muessen, dass
Suchmaschinen ihnen folgen koennen.
Ansonsten kann man ueber AltaVista die Net-Statistiken abrufen, die
zumindest genauer sind
als die Aussage, es sind mehr als drei Seiten somit viele ;-).
MfG
Umstaetter
begin:vcard
n:Umstaetter;Walther
x-mozilla-html:FALSE
org:Inst. f. Bibliothekswissenschaft, HU-Berlin
version:2.1
email;internet:h0228kdm _at__ rz.hu-berlin.de
title:Prof. Dr. rer. nat.
tel;fax:030 2093 4335
tel;home:033438 67318 Fax: 033438 67320
tel;work:030 2093 4236
adr;quoted-printable:;;Humboldt-Universit=E4t zu Berlin Dorotheesnstr. 26=0D=0A15345 Altlandsberg Buchholzerstr. 16;Berlin;;10099;Germany
x-mozilla-cpt:;0
fn:Walther Umstaetter
end:vcard
Listeninformationen unter http://www.inetbib.de.