Tiefer Einblick in Ihre Domain durch Logfile-Analyse

Website-Probleme identifizieren & Erkenntnisse für Optimierungen ermitteln lassen

Auch und gerade wenn man bereits SEO (also die Optimierung seiner Website für Suchmaschinen) betreibt, lohnt es sich vor allem bei größeren Websites mit viel Inventar, Historie und Traffic, eine regelmäßige Analyse der Logs des Webservers durchzuführen. 

Dabei kann man mit der nötigen Erfahrung in der Datenflut so gut wie immer Muster erkennen, aus denen sich weitere sowie auch grundsätzliche Potentiale für die Optimierung ableiten lassen. Einerseits durch das Finden von Fehlern, Hürden und Ballast, als auch um zu verstehen, wie die Crawler der Suchmaschinen die eigene Website abgrasen.

Wie kann Maischner Online Business als Dienstleister bei der Untersuchung der Logdateien helfen?

In der Vergangenheit war ich unregelmäßig mit kniffligen und spannenden Situationen wie z.B.

  • Website-Ausfällen oder
  • Performance-Problemen sowie
  • Ranking-Verlusten und
  • Ungereimtheiten bei der Indexierung in Suchmaschinen wie Google

konfrontiert, bei denen eine Sichtung der Website-Zugriffslogs entscheidende Erkenntnisse liefern konnte.

Obendrein waren stets weitere augenöffnende Einblicke und Schlüsse für die technische Verbesserung der jeweilig untersuchten Websites möglich.

Da die Logfiles des Webservers sehr ausufernd und unübersichtlich sind, stand ich jedes Mal wieder vor der Herausforderung, diese möglichst sinnvoll auszuwerten. Nach Ausprobieren verschiedener Tools konnte ich mir mittlerweile ein stabiles Analyse-Setup - vor allem für die regelmäßige und dauerhafte Überwachung auch von größeren Logfiles von mehr als 1 Million Zeilen pro Tag - zusammenstellen und programmieren.

Davon können auch Sie mit Ihrer Website profitieren und sich bequem die Erkenntnisse aus den Logfiles von mir zusammentragen lassen.

Verhalten von Suchmaschinen-Bots ermitteln

Logfile-Analysen zeigen glasklar, welche Seiten bzw. URLs einer Website die Bots der Suchmaschinen tatsächlich besuchen.

Während die Daten aus der Google Search Console ausdrücklich exemplarisch sind und man ansonsten im Dunkeln tappt, liefert die Logfileanalyse handfeste Erkenntnisse und offenbart Muster sowie eventuelle Anomalien.

Es wird also transparent,

  • welche Bots
  • wie oft
  • welche Seiten
  • mit welchem Statuscode gecrawlt haben.

Daraus lässt sich u.a. mittels der XML-Sitemap herausfinden, ob 

  • wichtige Seiten ignoriert, 
  • unwichtige Seiten zu häufig besucht,
  • unerwünschte URLs überhaupt oder
  • alte bzw. gelöschte URLs nach wie vor gecrawlt werden.

Darüber hinaus kann man anhand der Serverlogs erkennen, ob

  • sich Bots in der Seitenstruktur (z.B. in Paginierungen) versteigen
  • verwaiste Seiten, die nicht (mehr) intern verlinkt sind, existieren
  • Fehler (also HTTP-Codes 4xx oder 5xx) auftreten
  • unerwünschte oder dubiose Bots die Website heimsuchen und ohne Mehrwert massenhaft Bandbreite verschwenden oder versuchen, Sicherheitslücken zu eruieren.  

Crawling durch KI-Bots verstehen

Neben den Bots der klassischen Suchmaschinen suchen mittlerweile auch die Bots der KI-Suchmaschinen und -chatbots das Web nach Informationen ab. Hierbei ist es spannend, die verschiedenen Typen der Bots zu unterscheiden - u.a. nach allgemeinen Sammel-Bots (auf Vorrat und zum Training) und Recherche-Bots (auf Nutzer-Anfrage). Gerade für Websites mit vielen und häufig aktualisierten Inhalten ist es im sich verändernden Internet-Zeitalter essentiell, zu wissen, welche KI-Betreiber sich was, wie oft und zu welchem Zweck auf der eigenen Website anschauen. Zudem sperren einzelne Hosting-Provider solche Bots auch aus, was man eigentlich nur über eine Logfileanalyse herausfinden kann.

Typische Vertreter von KI-Bots:

GPTBot GPTBot/1.2; +https://openai.com/gptbot Dieser Bot crawlt das Web für Trainingszwecke von generativen KI-Grundlagenmodelle (generative AI foundation models)
ChatGPT-User ChatGPT-User/1.0; +https://openai.com/bot Dieser Botaufruf wird ausgelöst durch eine Nutzeraktion in ChatGPT oder von Nutzern definierten GPTs
OAI-SearchBot OAI-SearchBot/1.0; +https://openai.com/searchbot Dieser Bot crawlt Webseiten um sie in der Suche von ChatGPT auflisten zu können

 

Zusätzliche Ideen durch Verknüpfung mit weiteren Datenquellen

Neben den oben erwähnten XML-Sitemaps können die Logdaten z.B. auch mit folgenden Datenquellen verknüpft werden um weitere Erkenntnisse zu gewinnen:

  • eigenes Crawling der Website (ausgehend von üblicherweise der Startseite hangelt sich der Bot durch alle intern verküpften Dokumente und kartographiert sozusagen die Website)
  • Daten aus der Google Search Console oder den Bing Webmastertools

Handlungs- und Lösungsvorschläge

Selbstverständlich ist bei der reinen Analyse nicht Schluss, sondern es werden dazu passende Lösungs- und Handlungsvorschläge übergeben. Diese können dann vom betreuenden Dienstleister umgesetzt oder ggf. nach Absprache gesondert beauftragt werden.

Häufige Fragen zur Loganalyse

Was genau sind diese Logfiles und wo finde ich diese?

Die Zugriffs-Logfiles (Access-Logs) einer Website werden vom Webserver in der Regel automatisch geschrieben. Diese werden als komprimierte Dateien für gewöhnlich domain- und tageweise z.B. im Ordner www_logs oberhalb des DocumentRoot abgelegt.

Die reinen Logfiles beinhalten für jeden einzelnen Zugriff auf eine URL u.a. den Zeitpunkt, die IP-Adresse, den HTTP-Code sowie die Browser-Kennung (Useragent), z.B.:

 

137.39.253.51 - - [23/Mar/2025:01:03:51 +0100] "GET / HTTP/1.0" 200 1327 "-" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/129.0.0.0 Safari/537.36"

 

Da jeder einzelne Zugriff, also z.B. auch auf Bilder und Javascipt- oder Stylesheet-Dateien, geloggt wird, können die Logs gerade bei größeren Websites und mit viel Traffic schnell unübersichtlich und "von Hand" nur schwerlich sinnvoll ausgewertet werden.

Neben einer Tool-gestützten Auswertung kommt auch die jahrelange Auswertung von Serverlogs zum Tragen, um bestimmte Muster zu erkennen und sinnvolle Maßnahmen aus dem Geschehen auf dem Server ableiten zu können.

Erfolgt die Analyse einmalig oder fortlaufend?

Empfohlen wird eine initiale und regelmäßig stattfindende Tiefenanalyse. Das kann monatlich oder quartalsweise erfolgen. Zusätzlich ist bei geschäftskritischen Websites eine fortlaufende Prüfung auf Anomalien und Grenzwerte mit entsprechender Alarmierung sinnvoll.

Alle Varianten können als Dienstleistung abgedeckt werden.