Robots oder Spider sind Programme von Suchmaschinen, die das Web durchsuchen. Sie folgen allen Links, und indexieren meist alle Seiten auf dem Server. Dies ist nicht immer der Wunsch des Webmasters, da z.B. nicht öffentliche Dateien vom Spider indexiert werden. Mit der Datei robots.txt kann man dies verhindern…
Mit der Datei robots.txt kann man dem Spider eine Art Anleitung
geben, welche Verzeichnisse er nicht durchsuchen darf. Das kann
z.B. ein CGI-BIN Verzeichnis sein, oder ein Privates Verzeichnis.
Fast alle Suchmaschinen halten sich an die Regeln der robots.txt,
deshalb ist eine Arbeit mit dieser sehr Sinnvoll.
Wie man anhand der Dateiendung schon erkennt ist die Datei eine
einfache Textdatei, welche im Hauptverzeichnis ihrer Seite abgelegt
ist. In diesem Hauptverzeichnis befindet sich normalerweise auch
ihre Startseite.
Regeln einer robots.txt
Die Regeln für den Aufbau einer Robots.txt sind fest beschrieben,
man muss sich an diese halten, es kann nur eine robots.txt für
eine Domain geben.
Zunächst wollen wir alle Robots ansprechen, also keinen spezifischen.
User-agent: *
Disallow: /cgi-bin/
Disallow: /private/
Disallow: /login.php
Dieses Beispiel einer robots.txt zeigt die Arbeit mit dieser. Zunächst
wird der Spider, oder der Robot angesprochen. Das * steht für
alle Robots, jeder ist also angesprochen.
Danach werden die Verzeichnisse oder Dateien definiert, welche der
Robot nicht indexieren darf. Die Angaben des Pfades sind immer relative
Pfadangaben zur Domain. Diese müssen, mit einem Slash anfangen,
und bei ganzen Verzeichnissen mit einem Slash enden.
Man kann sich einfach die Domain vor die Angabe des Pfades vorstellen,
und schon ist das System klar.
Man kann auch nur einen Spider aussperren, wie im nächsten
Beispiel den Robot "scooter" von Altavista:
User-agent: scooter
Disallow: /cgi-bin/
Disallow: /private/
Disallow: /login.php
Man kann auch die gesamte Website für Suchmaschinen sperren.
Hierzu gibt man einfach einen / bei Disallow an. Dadurch wird die
gesamte Website von den Robots nicht indexiert.
Mit dem nächsten Beispiel kann man der Altavista-Bildersuche
z.B. den Zugang in das Bilder-Verzeichnis ihrer Seite verbieten:
User-agent: vscooter
Disallow: /images/
Der Robot von Google, den googlebot kann man speziell behandeln.
Er erlaubt in der robots.txt fast schon die Verwendung von Regulären
ausdrücken.
Mit diesem Beispiel wird dem Robot das indexieren aller *.html –
Dateien verboten.
User-agent: googlebot
Disallow: /*.html$
Das Beispiel sieht jetzt schon schwieriger aus, ist es aber eigentlich
nicht. Die Anweisung beginnt wie gewohnt mit einem /. Darauf folgt
ein *. Dieses * steht für eine beliebige Zeichenkette, mit
.html wird der Dateityp definiert, also alle HTML-Dokumente. Das
folgende $-Zeichen sagt dem Robot, das die Zeichenkette (eigentlich
die Datei) auf diese .html enden muss.