[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
RE: Suchmaschinenkunde
Moin liebe Liste,
> Wovon haengt es ab, dass Google mehr als 101 KB erfasst? Ich habe keine
> Ahnung, obwohl es in der unendlichen Google-Webliteratur sicher viele
> Antworten darauf gibt.
Es hängt in erster Linie von der Entscheidung der Entwickler ab, nicht mehr
zu indexieren. Laut Auskunft von Matt Cutts, dem Chefentwickler, ist erst
mal nicht geplant, über diese Begrenzung von 100 kB nachzudenken. Die
anderen Maschinen indexieren nach eigener Auskunft hingegen das gesamte
Dokument.
> Das deep oder invisible web scheint also noch tiefer und unsichtbarer
> geworden zu sein.
Mit "Invisible Web" wird gemeinhin der Teil bezeichnet, der dynamisch aus
Datenbanken erzeugt wird und daher nicht gecrawlt werden kann. In der
letzten Zeit setzt sich leider der Trend fort, mit dem "größten" Index zu
protzen. Das geht zu Lasten der Aktualität, durch zunehmende Dubletten und
leider auch geringere Indextiefe. Trotzdem hat sich das Problem unterm
Strich gebessert; die Angaben der grossen Suchmaschinen liegen derzeit 2
Milliarden (!) Seiten.
(http://www.searchenginewatch.com/reports/sizes.html)
> "Internet-Suchmaschinen: Die sog. Frontdoor einer elektronischen
> Publikation in FreiDok wird auch von vielen
> Internet-Suchmaschinen indexiert"
> aber ich kann mir trotzdem nicht erklaeren, warum die wichtigsten
> Suchmaschinen die Publikation ignorieren.
Dafür kann es viele Ursachen geben: Server zum Crawlzeitpunkt überlastet
oder nicht erreichbar, falsche (oder gar keine) robots.txt, unzureichende
Dokumentenstruktur, etc...
Die Frontdoor von Freidok (http://www.freidok.uni-freiburg.de/freidok/) ist
übrigens für etliche Suchmaschinen eine Sackgasse: Zwar kommt man über die
Fakultätsübersichten
(http://www.freidok.uni-freiburg.de/cgi-bin/w3-msql/freidok/abfrage_browsen.
html) zu einer Liste (4 Linktiefen), aber die ist dynamisch erzeugt. Google
indexiert trotzdem, andere werden bei den Sonderzeichen & und ? abbrechen.
Interessant ist der Pagerank: Während die dynamische Übersichtsseite einen
sehr schlechten Page Rank von 2 hat, haben einzelne darunter liegende Seiten
einen Page Rank von 3 oder 4. Und alle sind damit zumindest von Google
indexiert.
> Ein katastrophales Ergebnis, wie ich finde!
Ein Einzelfall gemessen an dem, was sonst so alles gefunden wird. Vor allem,
wenn man den Preis bedenkt, der dem Recherchierenden entsteht und die
Unkosten, die der Betreiber hat, wenn seine Seiten aufgenommen werden.
Beides ist null. Insofern... :-)
Bei Dokumentensammlungen und Archiven ist es enorm wichtig, dass eine klare
und möglichst flache Linkstruktur zu allen Dokumenten führt. Nur so kann der
Suchmaschinenrobot die Seiten indexieren. Wenn möglich, dann sollte eine
komplette Katalogstruktur jede einzelne Seite erschliessen, ohne dynamische
URLs mit den problematischen Sonderzeichen, und mit Links zur jeweils
höheren Verweisseite, am besten über einen Linkpfad (oder auch Krümelpfad
genannt) mit dessen Hilfe sich User und Suchmaschinenrobots in der
Dokumentenhierarchie entlang hangeln können. Wenn die Dokumente
ausschliesslich über eine Suchmaschine erreichbar sind oder gar dynamisch
zusammengebaut werden, dann sind sie in der Tat "invisible".
Übrigens gibt es eine noch in Arbeit befindliche (und daher vielleicht den
einen oder anderen Bug aufweisende) Website, mit der man interaktiv checken
kann, wie gut die eigenen Seiten für Suchmaschinen geeignet sind:
www.suchmaschinenberater.de (Beta, aber probieren kann man schon prima).
Mit freundlichem Gruss
Stefan Karzauninkat
--
Stefan Karzauninkat
Barner Strasse 14
22765 Hamburg
Tel: 040 361 228 60
Fax: 040 361 228 69
stefan.karzauninkat _at__ kazmedia.net
Alles ueber das Suchen im Netz: http://www.suchfibel.de
Mehr als 2600 spezielle Suchmaschinen: http://www.suchlexikon.de
Suchmaschinengerechtes Publizieren nicht nur für Bibliotheken:
http://www.kazmedia.de
Listeninformationen unter http://www.inetbib.de.