Zurück zum Blog

Google Analytics und Datenqualität

Liefert Google Analytics noch korrekte Daten?

Hatten Sie jemals mehr als eine Web-Analyse-Software für Ihre Website im Einsatz? Vielleicht wundern Sie sich, warum die Daten nicht immer übereinstimmen. In diesem Artikel gebe ich einen Überblick über Faktoren welche die Zuverlässigkeit der aufgezeichneten Daten beeinflussen.

Analytics Screenshot

Wie viele Daten erfasst Google Analytics wirklich?

Das Aufzeichnen von relevanten und korrekten Daten ist für die Planung fast aller Geschäftsprozesse unabdingbar. In vielen Fällen kann man beobachten, dass  Tracking-Methoden für Websitestatistiken oft konträre Ergebnisse liefern. In diesem Beitrag analysiere ich anhand einiger Real-Live-Tests die Verlässlichkeit von Google Analytics und gebe einige Beispiele für Faktoren, welche die Ergebnisse beeinträchtigen können.

Ich konzentriere mich in diesem Beitrag auf Google Analytics als populärstes Beispiel für Web-Analyse-Software. Verwenden Sie keine Logfileanalyse oder eine selbst-gehostete Analysesoftware (Bsp. Matomo) treffen die Informationen aber auch auf andere Anbieter zu.

Unser Test-Setup

  • Testzeitraum: ein Monat
  • Websites:
    • Website A (ca. 1500 Impressions / Tag)
    • Website B (ca. 733 Impressions / Tag)
  • Verwendete Tracking-Tools:
    • Google Analytics (traditionell)
    • Google Analytics (serverseitiges Tracking über Server Access-Log)
    • Matomo

Die Logfile-Daten wurden bereits bei der Aufzeichnung mittels einer Data-Pipeline von den wichtigsten Bots und Fehl-Hits bereinigt, welche den größten Teil des sonst üblichen "Over-Reportings" ausmachen (Google Analytics filtert zusätzlich noch genauer aus).

Die vorläufigen Ergebnisse:

Tracking-Tool Impressions Website A Impressions Website B Abweichung A Abweichung B
Google Analytics (traditionell) 306093 22727 Baseline Baseline
Google Analytics (serverseitig) 473874 36022 + 54,81% + 58,5%
Matomo 383576 28720 + 25,31% + 26,37%

Interessant ist massive Abweichung des serverseitigem Trackings gegenüber clientseitigem Google Analytics. Nach einigen Maßnahmen zur Datenbereinigung stellt sich hier die Frage, ob hier noch primär die "traditionellen" Gründe für Overreporting (Crawler etc.) ausschlaggebend sind. Die ebenfalls hohe Diskrepanz zu Matomo (trotz ähnlicher Tracking-Strategie) ist ebenfalls bemerkenswert (Nachdem die Abweichung lt. unserer Erfahrungen und den FAQ von Matomo durchschnittlich nur bei 5-10% liegen sollte). Dies deutet auf spezielle Faktoren hin, die ev. in der betrachteten Zielgruppe häufiger auftreten. Wir werden das Thema aber in Zukunft weiter genau analysieren und gegenchecken.

Weitere Tests: Andere ähnliche Analysen versuchen unter anderem mittels "Obfuscation" (Umbenennen der Google-Analytics Scripts und Funktionen) AdBlockern und Browsern das Blocken des Google-Analytics-Codes zu erschweren - Nachdem aber die Daten schließlich an eine Domain von Google gesendet werden müssen, kann jedenfalls dieser letzte Schritt einfach geblockt werden.

Die Gründe für fehlende Daten in Google Analytics

Ich habe in einer kurzen Recherche über mögliche Gründe für die Abweichungen Punkte gesammelt, die vielleicht einige Hinweise geben können:

Grund 1: Ad-Blocker

Ad-Blocker als Browsererweiterungen sind derzeit beliebt wie nie zuvor: Populäre Plugins wie "AdBlock Plus" und "uBlock Origin", oder spezialisierte Privatsphäre-Plugins wie "Privacy Badger" können neben Werbeanzeigen auf Google, YouTube und Facebook auch alle gängigen Tracking-Codes blockieren.

Lt. Statistiken verwenden (in Europa, Stand Dez. 2019) ca. 35% aller Benutzer einen AdBlocker - Tendenz steigend.

Das Problem ist derzeit bereits so akut für Google, dass auch in Chrome jetzt ein AdBlocker integriert wurde. Dieser blockt zwar nicht alle Ads, soll aber das Problem von besonders unangenehmen Werbeschaltungen verringern (und vermutlich vermeiden, dass Benutzer dann einen AdBlocker installieren). Technische Änderungen in Google Chrome sollen die Möglichkeiten von zusätzlichen Ad-Blockern weiter einschränken.

Grund 2: Browser-Privatsphäreeinstellungen

Neben zusätzlichen Ad-Blockern bieten auch Browser Privatsphäreeinstellungen: Sowohl Mozilla Firefox (Privatsphäreschutz) und Apple Safari (ITP) können  Google Analytics komplett blockieren.

Der Anteil beider Browser liegt (in Österreich, Stand Dez. 2019) bei über 33% (FF: 21% + Safari: 12%) - durchaus das Potential für verminderte Aussagekraft in der Statistik.

Grund 3: DSGVO On-Page Tracking Opt-Out

Die DSGVO (EUGH Urteil Oktober 2019) macht es notwendig, dass Cookies von Drittanbietern nicht mehr automatisch bestätigt werden dürfen. Eine Opt-Out Möglichkeit reicht im Fall von Google Analytics also nicht mehr aus.

Dies führt naturgemäß dazu, dass ein hoher Anteil an Benutzern auf das explizite Opt-In in Tracking-Software verzichten.

Grund 4: Fehler in Tracking-Scripts

Der Code, welcher auf der Website selbst für die Aufzeichnung der Daten zuständig ist, ist nicht immer völlig problemlos. Ist generell der Code falsch eingebaut hat man noch eines der besten Szenarien: Es werden gar keine Daten aufgezeichnet, was zumindest schnell zu erkennen ist. Komplexer ist das Verhältnis zwischen verschiedenen Einbaumethoden:

  • Direkter Einbau des Codes vs. Einbau über einen Tag Manager (Bsp. Google Tag Manager): Ein längerer Testlauf mit verschiedenen Einbaumethoden stellte um ~1% mehr Seitenaufrufe bei direktem Einbau des Analytics-Codes fest.
  • Leichte Fehler im Einbau: Code im Body-Tag vs. Head-Tag: Durch die Ladereihenfolge kann die Ausführung des Tracking-Codes beeinträchtigt werden: Quellen sprechen von bis zu 20% weniger augezeichneten Seitenaufrufen.
  • Manipulation oder alternativer Tracking-Code: Um (die eher schlechte) Performance des regulären Google-Analytics-Scripts zu verbessern greifen manche Websites auf explizites Caching / Inlining des Tracking-Scripts zurück oder nutzen eine alternative Implementierung. Technische Probleme können hier dafür sorgen, das das Tracking-Skript und somit die Aufzeichnung temporär nicht verfügbar ist.

Grund 5: Bessere Bot- und Crawlererkennung

Nicht jeder aufgezeichnete Seitenaufruf ist auch einem realen Besucher. Nicht nur Crawler von Suchmaschinen, sondern auch von sozialen Netzwerken (Facebook ..) oder Messengern (WhatsApp ..) und viele weitere Plattformen rufen Seiten automatisiert auf - je nach Themenbereich, Umfang und Art der Website mehr oder weniger.

Hier hat insbesondere Google Analytics, nicht zuletzt aufgrund der guten Datenlage sehr gute Filtersysteme um automatische Aufrufe auszufiltern.

Genaue Statistiken auch in Zukunft

Die schwindende Menge an durch Google Analytics erfasster Benutzer ist in vielerlei Hinsicht problematisch. Nicht nur, dass die konkrete Anzahl der User nicht mehr unbedingt die Realität widerspiegelt - das Bild des Benutzerverhaltens wird auch zu einem Benutzersegment hin verzerrt, welches weder Adblocker noch alternative Browser verwendet. Strikte Auslegungen der DSGVO können das Problem noch stark verschärfen.

Ich nehme nicht an, dass Trends zu mehr Privatsphäre noch umzukehren sind - wir arbeiten daher aktiv an Strategien, welche trotz geringerer Datenmenge genaue Informationen und Rückschlüsse auf die Effektivität von Werbemaßnahmen zulassen. Verwendet man ein Tool wie Google Analytics können die Daten schon derzeit oft lückenhaft sein.