Die Datei robots.txtRobots oder Spider sind Programme von Suchmaschinen, die das Web durchsuchen. Sie folgen allen Links, und indexieren meist alle Seiten auf dem Server. Dies ist nicht immer der Wunsch des Webmasters, da z.B. nicht öffentliche Dateien vom Spider indexiert werden. Mit der Datei robots.txt kann man dies verhindern...

Mit der Datei robots.txt kann man dem Spider eine Art Anleitung geben, welche Verzeichnisse er nicht durchsuchen darf. Das kann z.B. ein CGI-BIN Verzeichnis sein, oder ein Privates Verzeichnis. Fast alle Suchmaschinen halten sich an die Regeln der robots.txt, deshalb ist eine Arbeit mit dieser sehr Sinnvoll.

Wie man anhand der Dateiendung schon erkennt ist die Datei eine einfache Textdatei, welche im Hauptverzeichnis ihrer Seite abgelegt ist. In diesem Hauptverzeichnis befindet sich normalerweise auch ihre Startseite.

Regeln einer robots.txt
Die Regeln für den Aufbau einer Robots.txt sind fest beschrieben, man muss sich an diese halten, es kann nur eine robots.txt für eine Domain geben.
Zunächst wollen wir alle Robots ansprechen, also keinen spezifischen.

User-agent: *
Disallow: /cgi-bin/
Disallow: /private/
Disallow: /login.php

Dieses Beispiel einer robots.txt zeigt die Arbeit mit dieser. Zunächst wird der Spider, oder der Robot angesprochen. Das * steht für alle Robots, jeder ist also angesprochen.
Danach werden die Verzeichnisse oder Dateien definiert, welche der Robot nicht indexieren darf. Die Angaben des Pfades sind immer relative Pfadangaben zur Domain. Diese müssen, mit einem Slash anfangen, und bei ganzen Verzeichnissen mit einem Slash enden.
Man kann sich einfach die Domain vor die Angabe des Pfades vorstellen, und schon ist das System klar.
Man kann auch nur einen Spider aussperren, wie im nächsten Beispiel den Robot "scooter" von Altavista:

User-agent: scooter
Disallow: /cgi-bin/
Disallow: /private/
Disallow: /login.php

Man kann auch die gesamte Website für Suchmaschinen sperren. Hierzu gibt man einfach einen / bei Disallow an. Dadurch wird die gesamte Website von den Robots nicht indexiert.

Mit dem nächsten Beispiel kann man der Altavista-Bildersuche z.B. den Zugang in das Bilder-Verzeichnis ihrer Seite verbieten:

User-agent: vscooter
Disallow: /images/

Der Robot von Google, den googlebot kann man speziell behandeln. Er erlaubt in der robots.txt fast schon die Verwendung von Regulären ausdrücken.
Mit diesem Beispiel wird dem Robot das indexieren aller *.html - Dateien verboten.

User-agent: googlebot
Disallow: /*.html$

Das Beispiel sieht jetzt schon schwieriger aus, ist es aber eigentlich nicht. Die Anweisung beginnt wie gewohnt mit einem /. Darauf folgt ein *. Dieses * steht für eine beliebige Zeichenkette, mit .html wird der Dateityp definiert, also alle HTML-Dokumente. Das folgende $-Zeichen sagt dem Robot, das die Zeichenkette (eigentlich die Datei) auf diese .html enden muss.

Bookmark setzen... These icons link to social bookmarking sites where readers can share and discover new web pages.
  • Print
  • Digg
  • Sphinn
  • del.icio.us
  • Facebook
  • Mixx
  • Bloglines
  • MisterWong
  • MySpace
  • Reddit
  • SEOigg
  • Technorati
  • TwitThis
  • Y!GG
  • Google Bookmarks

Weiterführende Links: