Statistiken aus Logfiles? Wer Logfiles genau analysiert kommt schnell zu überaschenden Ergebnissen über die eigenen Besucher, wo Sie herkommen, und was sie auf ihren Seiten finden wollen.
Jeder Hit wird aufgezeichnet, dabei werden nicht nur die
IP des Besuchers gespeichert, nein sogar der verwendete Browser
kann ermittelt werden.
Die Logfiles sind die Speicherplätze für diese Daten.
In ihnen wird jede Anfrage an den Server protokolliert und abgespeichert,
wer auf diese Statistiken zugriff hat, kann sehr viel über
die Entwicklung des Besucherstroms, und sogar die Zielgruppe ermitteln.
Die Logfiles sind meistens im selben Verzeichnis wie der ROOT selbst
ist. Sie sind einfache Textdateien und können mit jedem Editor
ausgelesen werden.
Jeder Aufruf an den Server wird protokolliert. Es kann so bestimmt
werden, von wo der Besucher kam, welchen Browser er verwendet, und
wie viele Seiten er angeschaut hat. Jeder Aufruf steht in der Logfile
in einer eigenen Zeile. Eine Zeile könnte z.B. so aussehen:
192.168.156.36 – [20/Jan/2002:19:35:09 +0100] "GET / HTTP/1.1"
200 25641 www.devmag.net "https://www.devmag.net/" "Mozilla/4.0
(compatible; MSIE 5.5; Windows ME; DigExt)"
Diese Zeile beschreibt einen kompletten Aufruf der Seite. Auf der
"Code" eher ungeordnet, doch besteht er aus einer festen
Struktur. Der erste Teil ist die IP Adresse des Rechners, welcher
den Aufruf getätigt hat. Die IP Adresse ist eine wandelnde
Nummer. Bei jeder neuen Internetverbindung wird dem Computer vom
jeweiligen Internetanbieter eine neue IP Adresse aus einem Pool
gegeben. Diese IP Adresse ist innerhalb dieser Session einmalig.
Diese einmalige Nummer erlaubt die Kommunikation zwischen den verschiedenen
Rechnern.
Auf diese Angabe folgt ein Bindestrich.
Nach diesem werden nähere Informationen zum Aufruf der Seite
gemacht. Zunächst kommt das Datum und die Uhrzeit, es steht
in []-Klammern. Es ist in dem amerikanischen Standard angegeben
Tag/Monat/Jahr. Getrennt von einem Doppelpunkt kommt die genaue
Angabe des Zeitpunkt des Aufrufs. Diese Angabe ist im GMT Zeitformat.
Bei dem Beispiel kommt der Besucher aus dem Raum, in dem die MEZ
gilt, deshalb muss eine Stunde addiert werden, dies geschieht durch
das +0100. Die konkrete Zeit des Aufrufs war also 20:35:09 Uhr.
Zur Sommerzeit kann in unseren "Gefilden" Zeitverschiebung
auch +0200, also zwei Stunden betragen.
Die nächste Angabe spezifiziert den Aufruf. Die Methode GET
legt fest, das die Daten vom Server an den Client gesendet wurden,
nach dieser Angabe steht das Protokoll, mit welchem die Daten kodiert
werden. Es ist hier das HTTP Protokoll.
Es kann sein das als Methode in den Logfiles auch ein HEAD auftaucht.
Diese Methode wird vor allem von Suchmaschinen verwendet, die dadurch
nur Daten zu der angeforderten Datei erhalten. Dies können
das letzte Änderungsdatum des Dokumentes sein. Mit diesem Datum
wird dann abgewägt, ob die Seite neu indexiert wird.
Nach der Angabe der Methode und des Protokolls folgt der Rückgabecode
des Servers. Ist der Seitenaufruf geglückt, dann wird als Rückgabecode
200 zurückgegeben.
Weitere Rückgabecodes
200 OK
Der Request wurde erfolgreich durchgeführt.
204 No Content
Das Dokument, welches angefordert wird enthält keine Daten.
206 Partial Content
Die Übertragung wurde unterbrochen. Dies kann vom Browser
aus geschehen, oder bei einem Update der Seite.
300 Multiple Choices
Es gibt mehrere (ähnliche) Dateien. Der Server kann die
Datei nicht eindeutig ermitteln, und bietet mehrere Auswahlmöglichkeiten.
301 Moved Permanently
Die Datei wurde an einen anderen Ort verschoben.
304 Not Modified
Die Datei wird komplett aus dem Cache (Server und/oder Clientseitig)
geladen.
400 Bad Request
Der Webserver "versteht" die Anfrage nicht.
401 Unauthorized
Sie sind nicht autorisiert, diesen Bereich zu betreten.
403 Forbidden
Der Zugriff auf die angeforderte Datei wird verweigert
404 Not Found
Die Datei wurde nicht gefunden (ist nicht vorhanden), oder der
URL wurde falsch eingegeben.
500 Internal Server Error
Ein unbekannter Server Fehler ist aufgetreten. Oftmals entstehen
diese durch falsche Anwendung von .htaccess – Dateien, oder durch
Fehler im CGI.
503 Service Unavailable
Der Server kann die Anfrage zeitweilig nicht bearbeiten, z.B.
bei Wartungsarbeiten.
Nun aber zurück zu der Logfile-Analyse.
Auf den Rückgabecode folgt eine Zahl, sie gibt die genau übertragene
Datenmenge in Bytes an. Diese Zahl entspricht also der Dateigröße.
Danach folgt der URL zu dem Dokument, welches aufgerufen wurde.
Der URL weißt auf den Root, es war also ein direkter Request.
Auf diesen URL folgt der URL der Seite, auf welcher sich der Besucher
zuletzt befand. Bei einer direkten Anfrage entfällt diese Angabe.
Bei einer indirekten Anfrage kommt man z.B. über einen Link
einer anderen Seite zu der Seite, hier steht dann der URL der Seite,
von welcher man auf die andere Seite gekommen ist. Diese Seite bezeichnet
man als Referer-Seite.
Die folgenden Angabe geben nähere Informationen zu dem Client,
bzw. zu dem System von welchem der Aufruf getätigt worden ist.
Diese Angaben erstrecken sich von dem verwendeten Browser bis zu
dem Betriebssystem. In dem Beispiel verwendet der Besucher, leicht
zu erkennen, den Internet Explorer in der Version 5.5. Zudem arbeitet
er mit Windows ME als Betriebssystem.
Kommt der Request von einem Spider, oder von einem Robot, dann steht
hier der Name des jeweiligen Spider oder Robots.
Da jeder Hit nach diesem, oder ähnlichen Muster aufgebaut
ist, wird auch die Analyse fast zu einem Kinderspiel. Es gibt Programme
bzw. Skripte, die jeden Hit auslesen, und in ihre Bestandteile auseinandernehmen,
und dann in einer hübschen, übersichtlichen Statistik
wieder zusammen setzten. Komplexere Statistiksysteme ermitteln zudem
oftmals von dem Besucher über JavaScript weitere Daten, wie
z.B. die Bildschirmauflösung oder ähnlich.
Somit lässt sich leicht ermitteln, für welche Besuchergruppe
eine Seite optimiert werden sollte.
Ein kostenloses Skript welches die Logfiles analysiert ist Webalizer.