auch virtuelle Server melden unter der IP-Nummer zumindest den HTTP-Code 200 und nicht 404. Der Fehlercode "404 not found" kann für Crawler, die sich eine IP vom vorigen Durchlauf gemerkt haben, schon reichen, um anzunehmen, dass die Seite verschwunden ist und sich eine Indexierung nicht mehr lohnt. Googlebot ist sehr misstrauisch und gibt bei Unstimmigkeiten leichter auf als früher, um weniger Spam zu indexieren.
Ist keine robots.txt vorhanden, gilt das als Vorabfreigabe, alles zu spidern - wobei natürlich Meta-Tags in einzelnen Seiten weiterhin beachtet werden. Im Übrigen ist ist Ihr Beispiel fehlerhaft. Es müsste
User-agent: * Disallow:
heißen. Die robots.txt dient nicht dazu, Suchmaschinen ein-, sondern auszuladen.
Ihre Korrektur lädt alle Suchmaschinen ein und entspricht einem fehlenden robots.txt - meinen Sie das wirklich? Um alle auszuladen, müsste es ja heissen:
User-agent: * Disallow: /
Wenn Sie die Google FAQ lesen, stellen Sie fest, dass Googlebot den Eintrag "Allow" als Erweiterung des robot.txt-Standards versteht und nicht auf "Disallow:" angewiesen ist. Daher kann man den Googlebot auch einladen, bestimmte Bereiche oder Dateitypen einer Site zu durchsuchen - andere Suchmaschinen unterstützen das nicht.
-- Sascha Carlin website: http://www.itst.org/ blog: http://www.itst.org/web/ mailto: sc@xxxxxxxx icq: 99327847 skype: saschacarlin mobile: +49 177 3074952 gpg: http://www.itst.org/sc_at_itst_dot_net.asc