[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Problem mit Google



Jörg Prante wrote:
auch virtuelle Server melden unter der IP-Nummer zumindest den HTTP-Code 200 und nicht 404. Der Fehlercode "404 not found" kann für Crawler, die sich eine IP vom vorigen Durchlauf gemerkt haben, schon reichen, um anzunehmen, dass die Seite verschwunden ist und sich eine Indexierung nicht mehr lohnt. Googlebot ist sehr misstrauisch und gibt bei Unstimmigkeiten leichter auf als früher, um weniger Spam zu indexieren.

Ich bin mir ziemlich sicher das Google weiß, das die Inhalt von http://domain.de/, http://www.domain.de/ und http://ip-der-domain/ unterscheiden können, sogar das dort keine Inhalte hinterlegt sein können. Aber wenn Sie sagen, Sie haben das so selbst erlebt...


Ist keine robots.txt vorhanden, gilt das als Vorabfreigabe, alles zu
spidern - wobei natürlich Meta-Tags in einzelnen Seiten weiterhin beachtet
werden. Im Übrigen ist ist Ihr Beispiel fehlerhaft. Es müsste

User-agent: *
Disallow:

heißen. Die robots.txt dient nicht dazu, Suchmaschinen ein-, sondern
auszuladen.

Ihre Korrektur lädt alle Suchmaschinen ein und entspricht einem fehlenden robots.txt - meinen Sie das wirklich? Um alle auszuladen, müsste es ja heissen:


User-agent: *
Disallow: /

Genau so ist es.


Disallow:

bedeutet, das nichts verboten ist.


Wenn Sie die Google FAQ lesen, stellen Sie fest, dass Googlebot den Eintrag "Allow" als Erweiterung des robot.txt-Standards versteht und nicht auf "Disallow:" angewiesen ist. Daher kann man den Googlebot auch einladen, bestimmte Bereiche oder Dateitypen einer Site zu durchsuchen - andere Suchmaschinen unterstützen das nicht.

Leider ist Allow nicht im Robots-Exclusion (sic!) definiert und wird daher nicht von allem Suchmaschinen interprtiert.


Gruß, Sascha Carlin

--
Sascha Carlin
website: http://www.itst.org/
blog:    http://www.itst.org/web/
mailto:  sc@xxxxxxxx
icq:     99327847
skype:   saschacarlin
mobile:  +49 177 3074952
gpg:     http://www.itst.org/sc_at_itst_dot_net.asc


Listeninformationen unter http://www.inetbib.de.