Logfiles - Die Spuren eines Besuchers Statistiken aus Logfiles? Wer Logfiles genau analysiert kommt schnell zu überaschenden Ergebnissen über die eigenen Besucher, wo Sie herkommen, und was sie auf ihren Seiten finden wollen.

Jeder Hit wird aufgezeichnet, dabei werden nicht nur die IP des Besuchers gespeichert, nein sogar der verwendete Browser kann ermittelt werden.
Die Logfiles sind die Speicherplätze für diese Daten. In ihnen wird jede Anfrage an den Server protokolliert und abgespeichert, wer auf diese Statistiken zugriff hat, kann sehr viel über die Entwicklung des Besucherstroms, und sogar die Zielgruppe ermitteln.

Die Logfiles sind meistens im selben Verzeichnis wie der ROOT selbst ist. Sie sind einfache Textdateien und können mit jedem Editor ausgelesen werden.

Jeder Aufruf an den Server wird protokolliert. Es kann so bestimmt werden, von wo der Besucher kam, welchen Browser er verwendet, und wie viele Seiten er angeschaut hat. Jeder Aufruf steht in der Logfile in einer eigenen Zeile. Eine Zeile könnte z.B. so aussehen:

192.168.156.36 - [20/Jan/2002:19:35:09 +0100] "GET / HTTP/1.1" 200 25641 www.devmag.net "http://www.devmag.net/" "Mozilla/4.0 (compatible; MSIE 5.5; Windows ME; DigExt)"

Diese Zeile beschreibt einen kompletten Aufruf der Seite. Auf der "Code" eher ungeordnet, doch besteht er aus einer festen Struktur. Der erste Teil ist die IP Adresse des Rechners, welcher den Aufruf getätigt hat. Die IP Adresse ist eine wandelnde Nummer. Bei jeder neuen Internetverbindung wird dem Computer vom jeweiligen Internetanbieter eine neue IP Adresse aus einem Pool gegeben. Diese IP Adresse ist innerhalb dieser Session einmalig. Diese einmalige Nummer erlaubt die Kommunikation zwischen den verschiedenen Rechnern.
Auf diese Angabe folgt ein Bindestrich.
Nach diesem werden nähere Informationen zum Aufruf der Seite gemacht. Zunächst kommt das Datum und die Uhrzeit, es steht in []-Klammern. Es ist in dem amerikanischen Standard angegeben Tag/Monat/Jahr. Getrennt von einem Doppelpunkt kommt die genaue Angabe des Zeitpunkt des Aufrufs. Diese Angabe ist im GMT Zeitformat.
Bei dem Beispiel kommt der Besucher aus dem Raum, in dem die MEZ gilt, deshalb muss eine Stunde addiert werden, dies geschieht durch das +0100. Die konkrete Zeit des Aufrufs war also 20:35:09 Uhr. Zur Sommerzeit kann in unseren "Gefilden" Zeitverschiebung auch +0200, also zwei Stunden betragen.

Die nächste Angabe spezifiziert den Aufruf. Die Methode GET legt fest, das die Daten vom Server an den Client gesendet wurden, nach dieser Angabe steht das Protokoll, mit welchem die Daten kodiert werden. Es ist hier das HTTP Protokoll.
Es kann sein das als Methode in den Logfiles auch ein HEAD auftaucht. Diese Methode wird vor allem von Suchmaschinen verwendet, die dadurch nur Daten zu der angeforderten Datei erhalten. Dies können das letzte Änderungsdatum des Dokumentes sein. Mit diesem Datum wird dann abgewägt, ob die Seite neu indexiert wird.
Nach der Angabe der Methode und des Protokolls folgt der Rückgabecode des Servers. Ist der Seitenaufruf geglückt, dann wird als Rückgabecode 200 zurückgegeben.

Weitere Rückgabecodes

200 OK
Der Request wurde erfolgreich durchgeführt.

204 No Content
Das Dokument, welches angefordert wird enthält keine Daten.

206 Partial Content
Die Übertragung wurde unterbrochen. Dies kann vom Browser aus geschehen, oder bei einem Update der Seite.

300 Multiple Choices
Es gibt mehrere (ähnliche) Dateien. Der Server kann die Datei nicht eindeutig ermitteln, und bietet mehrere Auswahlmöglichkeiten.

301 Moved Permanently
Die Datei wurde an einen anderen Ort verschoben.

304 Not Modified
Die Datei wird komplett aus dem Cache (Server und/oder Clientseitig) geladen.

400 Bad Request
Der Webserver "versteht" die Anfrage nicht.

401 Unauthorized
Sie sind nicht autorisiert, diesen Bereich zu betreten.

403 Forbidden
Der Zugriff auf die angeforderte Datei wird verweigert

404 Not Found
Die Datei wurde nicht gefunden (ist nicht vorhanden), oder der URL wurde falsch eingegeben.

500 Internal Server Error
Ein unbekannter Server Fehler ist aufgetreten. Oftmals entstehen diese durch falsche Anwendung von .htaccess - Dateien, oder durch Fehler im CGI.

503 Service Unavailable
Der Server kann die Anfrage zeitweilig nicht bearbeiten, z.B. bei Wartungsarbeiten.

Nun aber zurück zu der Logfile-Analyse.

Auf den Rückgabecode folgt eine Zahl, sie gibt die genau übertragene Datenmenge in Bytes an. Diese Zahl entspricht also der Dateigröße. Danach folgt der URL zu dem Dokument, welches aufgerufen wurde. Der URL weißt auf den Root, es war also ein direkter Request.
Auf diesen URL folgt der URL der Seite, auf welcher sich der Besucher zuletzt befand. Bei einer direkten Anfrage entfällt diese Angabe.
Bei einer indirekten Anfrage kommt man z.B. über einen Link einer anderen Seite zu der Seite, hier steht dann der URL der Seite, von welcher man auf die andere Seite gekommen ist. Diese Seite bezeichnet man als Referer-Seite.

Die folgenden Angabe geben nähere Informationen zu dem Client, bzw. zu dem System von welchem der Aufruf getätigt worden ist. Diese Angaben erstrecken sich von dem verwendeten Browser bis zu dem Betriebssystem. In dem Beispiel verwendet der Besucher, leicht zu erkennen, den Internet Explorer in der Version 5.5. Zudem arbeitet er mit Windows ME als Betriebssystem.
Kommt der Request von einem Spider, oder von einem Robot, dann steht hier der Name des jeweiligen Spider oder Robots.

Da jeder Hit nach diesem, oder ähnlichen Muster aufgebaut ist, wird auch die Analyse fast zu einem Kinderspiel. Es gibt Programme bzw. Skripte, die jeden Hit auslesen, und in ihre Bestandteile auseinandernehmen, und dann in einer hübschen, übersichtlichen Statistik wieder zusammen setzten. Komplexere Statistiksysteme ermitteln zudem oftmals von dem Besucher über JavaScript weitere Daten, wie z.B. die Bildschirmauflösung oder ähnlich.
Somit lässt sich leicht ermitteln, für welche Besuchergruppe eine Seite optimiert werden sollte.
Ein kostenloses Skript welches die Logfiles analysiert ist Webalizer.

Bookmark setzen... These icons link to social bookmarking sites where readers can share and discover new web pages.
  • Print
  • Digg
  • Sphinn
  • del.icio.us
  • Facebook
  • Mixx
  • Bloglines
  • MisterWong
  • MySpace
  • Reddit
  • SEOigg
  • Technorati
  • TwitThis
  • Y!GG
  • Google Bookmarks

Keine weiterführenden Beiträge.