// RestrictedAds

TÜV Rheinland geprüft · Zertifikat verifizieren →

03 · DATENQUALITÄT

Tracking & Datenqualität: Was Deine Messung wirklich sagt

Warum Datenqualität vor dem Dashboard entsteht, und warum schlechte Tracking-Daten durch KI nicht besser, sondern schneller zu falschen Entscheidungen werden.

← Alle Themen

Was Tracking & Datenqualität im Unternehmen bedeutet

Wenn ein Tracking-Setup läuft, feuern Events. GA4 zählt automatisch (page_view, scroll, click, session_start). Zwölf solcher Auto-Events sind in jeder Standard-Konfiguration aktiv, ohne dass eine Geschäftsfrage dahintersteht. Technisch funktioniert das Setup. Inhaltlich sagt es wenig.

Standard-Tracking kennt Dein Geschäftsmodell nicht. Es misst, was technisch vorgesehen ist, nicht automatisch, was für Deine Entscheidungen zählt. Ein Event, das feuert, aber nicht als Conversion markiert ist, taucht in keinem Bericht auf, der nach Geschäftswert sortiert. Das ist kein Fehler im System. Das ist ein Gespräch, das vor dem Setup nicht stattgefunden hat.

Die Symptome zeigen sich im Reporting schnell: Ein hoher „(not set)"-Anteil in der Quellen-Übersicht bedeutet, Sessions kommen an, aber niemand kann sagen woher. Events feuern, der Conversion-Count bleibt null. Das Setup ist da. Die Entscheidungsgrundlage fehlt.

Warum Datenqualität vor dem Dashboard entsteht

Welche Tags laufen?

Bevor eine Zahl im Dashboard erscheint, muss entschieden sein: Was wird überhaupt gemessen, und wie? Viele Setups in Unternehmen sind gewachsen: Google Tag Manager auf einem Teil der Seiten, gtag direkt auf einem anderen. Sobald beides gleichzeitig läuft, koexistieren zwei Mess-Strategien ohne Plan. Der Tag-Manager weiß, was er konfiguriert hat. Das Frontend liefert, was das DOM ausgibt. Beides ist nicht automatisch deckungsgleich. Für Dich heißt das: Was Du gemessen siehst, hängt davon ab, was beim Setup einmal entschieden wurde, und ob diese Entscheidung noch dokumentiert ist.

Was im GA4-Dashboard steht, hängt davon ab, welchen Zeitraum Du gewählt hast und welches Attributionsfenster greift. Ein frischer Einbruch im Kanal-Mix kann im Drei-Monats-Mittel untergehen, ein guter Tag im 7-Tage-Vergleich kann eine schlechte Quartals-Tendenz überdecken. Für Dich heißt das: Ein Dashboard ist immer nur ein Ausschnitt. Entscheidend ist, ob Du weißt, welcher Zeitraum gerade welche Frage beantwortet. Tracking ist eine eigenständige Architektur-Säule. Was sichtbar wird, entscheidet sich lange bevor ein Bericht geöffnet wird.

Unter welcher Consent-Bedingung laufen sie?

Consent Mode v2 definiert vier Flags: ad_storage, ad_user_data, ad_personalization, analytics_storage. Diese vier Consent-Signale steuern, was Google-Tags senden dürfen. Wichtig ist die Reihenfolge: Der Default-Zustand muss stehen, bevor andere Tags feuern. Sonst misst Du nicht kontrolliert, sondern hoffst, dass Dein Setup schon passt.

Für Unternehmen mit Nutzern im Europäischen Wirtschaftsraum ist das operativ direkt relevant: Ohne die richtigen Consent-Signale kein Customer-Match, kein Remarketing, kein Conversion-Modeling. Wer Tags bis zur Banner-Interaktion hart blockiert statt Consent Mode v2 zu nutzen, verliert genau die Signale, mit denen fehlende Conversions später modelliert werden könnten.

Hinter der Implementierungsfrage liegt die rechtliche: Für Web-Tracking ist Einwilligung nach Datenschutzrecht regelmäßig die relevante Rechtsgrundlage. Drittland-Transfers zu US-Anbietern brauchen nach dem Schrems-II-Urteil eine Einzelfall-Prüfung. Standardvertragsklauseln allein reichen nicht aus. Die Entscheidung, welche Tags unter welchen Bedingungen laufen, ist also keine rein technische Frage. Für Dich heißt das: Einwilligung ist kein Haken auf einer Compliance-Liste. Sie entscheidet mit, ob Dein Tracking-Setup überhaupt trägt.

Wo werden sie ausgeführt, Client oder Server?

Server-Side-Tagging verlagert die Tag-Ausführung vom Browser auf einen Server, den Du kontrollierst. Das ist keine Konfigurationsfrage. Das ist eine Architektur-Entscheidung. Ein Server-Container hat drei Hosting-Modi mit unterschiedlichem Cookie-Zugriff: Same-Origin, Subdomain und Default. Die Wahl bestimmt, ob ein Cookie als First-Party gilt, und damit, ob Safari-ITP und Firefox-ETP es kappen oder nicht.

Was Du davon hast: Mehr Kontrolle über den Datenfluss, stabilere Signal-Übertragung an Ad-Plattformen, weniger Verlust durch Browser-Restriktionen. Meta dokumentiert für CAPI plus Pixel typische Lifts zwischen 15 und 40 Prozent mehr messbaren Conversions, abhängig vom Setup und der Zielgruppe, bei mobilen, jüngeren Audiences eher am oberen Rand, bei desktop-heavy B2B-Setups eher am unteren. Das sind keine garantierten Effekte, sondern Größenordnungen, die Du in Audits siehst.

Lohnt sich also? Wenn Dein Marketing Geld auf Plattformen verbrennt, die zu wenig Conversion-Signal bekommen: ja. Wenn Du gerade erst mit GA4 anfängst und noch nicht weißt, welche Events überhaupt zählen: nein, dann ist Server-Side zu früh. Es ist kein Default-Upgrade, sondern eine Antwort auf ein konkretes Problem.

Wie werden Nutzer und Domains verbunden?

GA4 bietet zwei Reporting-Identitäten: Blended ergänzt gemessene Daten um modellierte, Observed arbeitet nur mit gemessenen. Das ist keine Reporting-Einstellung. Es ist eine Entscheidung über das Datenmodell. User-ID erlaubt Cross-Session- und Cross-Device-Zuordnung auf Basis einer eigenen Anbieter-ID, typisch einer CRM-ID nach Login. Cross-Domain-Messung funktioniert über den _gl-Linker-Parameter: Ein Redirect, der diesen Parameter nicht weitergibt, erzeugt sofort zwei getrennte Nutzer statt einer kontinuierlichen Session. Für Dich heißt das: Wenn Dein Checkout, Buchungssystem oder Login auf einer anderen Domain liegt und der Linker bricht, sieht GA4 nicht eine Reise. Es sieht zwei getrennte Besuche. Aus einem echten Kundenweg wird im Bericht ein kaputtes Doppel.

Unternehmens-Anwendung: typische Setups, typische Schmerzen

Was in einem typischen Setup steht: GA4 läuft, Events feuern, der Quellen-Report zeigt einen „(not set)"-Block, der je nach Sorgfalt bei der Einrichtung kleiner oder größer ist. Events, die als Conversion wichtig wären, sind nicht als Key Event markiert. Sie erscheinen in Conversion-Berichten nicht, obwohl sie technisch existieren. Daneben liegen Architektur-Probleme, die sich im Reporting erst mit Verzögerung zeigen. Wenn auf Transaktions-Seitentypen ein Canonical-Mismatch besteht (die URL zeigt auf eine andere URL als kanonisch), fragmentieren die Tracking-Daten sich über mehrere URL-Varianten. Welche Seite hat tatsächlich Traffic bekommen? Schwer zu sagen.

Die stillen Brüche fangen oft im Detail an. GA4 akzeptiert Event-Namen mit mehr als 40 Zeichen, meldet dabei keinen Fehler, aber Events mit zu langen Namen tauchen im Key-Event-Reporting nicht auf. Wer das nicht kennt, sieht Events in GA4 und sucht sie vergeblich im Conversion-Report. Bei Traffic-armen Properties scheitert Conversion-Modeling an einer Mindest-Schwelle. Der Fallback ist „Direct" oder Suppression, kein Modell. User-ID als Cross-Device-Lösung setzt eine CRM-ID nach Login voraus: Ohne Login-Bereich kein User-ID-Stitching, nur Device-ID als Basis, die bei Browser-Wechsel oder Cookie-Deletion bricht. Das Problem daran: Stille Brüche melden sich nicht von selbst. Sie zeigen sich erst, wenn Du gezielt nachsiehst, und bis dahin läuft das Setup als funktionierend durch.

Alltag & Praxis: woran Du schlechte Daten erkennst

Das Typische an schlechten Daten ist nicht, dass sie fehlen. Es ist, dass sie still driften. Das 90-Tage-Aggregat in GA4 hat keine Last-Seen-Logik. Ein Event, das vor drei Wochen aufgehört hat zu feuern, ist im Gesamtaggregat kaum zu erkennen. Ein _gl-Parameter, der nach einem Redirect nicht weitergegeben wird, erzeugt sofort zwei getrennte Sessions, ohne Fehlermeldung. Parameter-Werte über 100 Zeichen werden in GA4 still abgeschnitten. Der Wert fehlt im Bericht, das Tag hat aber angeblich gefeuert. Attribution-Daten finalisieren bis zu zwölf Tage nach einer Conversion: Ein Tagesvergleich am Folgetag ist methodisch nicht belastbar. Wenn Du hier falsch liegst, ist das kein scharfer Fehler. Es ist ein schleichender Drift, der Entscheidungen untergräbt, ohne dass Du es in einem einzelnen Bericht siehst.

Was Du selbst prüfen kannst: Eine Event-Inventur (welche Events sollten feuern, welche tun es tatsächlich, welche sind als Key Event markiert) gibt schnell Aufschluss über den Zustand der Mess-Schicht. Die GTM-Versionshistorie zeigt, wer wann was geändert und veröffentlicht hat. Rollback auf eine frühere Version ist eine First-Class-Disziplin, kein Notfall. Den Quellen-Bericht auf den „(not set)"-Anteil zu prüfen ist der einfachste Einstieg in eine Quellen-Diagnose. snake_case ist in GA4 Standard, aber nicht technisch erzwungen. Events mit camelCase oder Whitespace funktionieren technisch, brechen aber Querschnitts-Reports zwischen Properties. Zwei Editoren im selben GTM-Workspace können ohne automatische Konflikt-Resolution aneinander vorbei publishen. Wer zuerst veröffentlicht, überschreibt. Genau deshalb ist GTM nicht nur ein Tag-Manager, sondern ein Versions-System. Wer nicht weiß, was wann veröffentlicht wurde, kann stille Brüche nicht eingrenzen.

Was Tracking nicht leistet

Es gibt Grenzen, die kein Setup einfach wegkonfiguriert. Vier davon entscheiden besonders stark darüber, wie belastbar Deine Daten wirklich sind.

Modeling funktioniert nicht, nur weil Consent Mode irgendwo im Tag Manager steht. Im Basic Consent Mode werden Tags bis zur Zustimmung blockiert. Dann gibt es nichts zu modellieren. Im Advanced Consent Mode dürfen Google-Tags vor der Entscheidung cookielose Signale senden, sofern der Default-Consent sauber gesetzt ist. Erst dann hat GA4 überhaupt eine Basis, aus der modelliert werden kann.

Aber selbst dann ist Modeling kein Automatismus. GA4 verlangt Blended Reporting Identity, ausreichend Traffic und Googles eigene Qualitätsschwellen. Wer wenig Volumen hat oder Consent-Quoten unter 50 Prozent, sieht oft kein modelliertes Ergebnis, sondern den Fallback. Für Dich heißt das: Consent Mode ist kein Schalter, sondern ein Setup. Wer ihn aktiviert und nicht prüft, ob das Modeling tatsächlich greift, optimiert auf Daten, die er gar nicht hat.

Wenn Modeling nicht greift, kommt der nächste Verlust im Browser selbst. Apple ITP blockiert Drittanbieter-Cookies auf Safari vollständig seit März 2020, nicht eingeschränkt, sondern blockiert. JS-gesetzte First-Party-Cookies leben auf Safari maximal sieben Tage ohne neue Nutzer-Interaktion; gclid und fbclid werden als Link-Decoration erkannt und auf 24 Stunden gekappt. Firefox sperrt Tracker-Cookies kategorisch nach Disconnect-Liste, Cross-Site-Storage ist partitioniert. Chrome hat die Drittanbieter-Cookie-Abschaltung mehrfach verschoben. Browser- und Plattform-Regeln verändern die Messgrundlage, ohne dass Dein Dashboard das sauber erklärt. Diese Verluste erscheinen im Reporting als Volumen-Lücken und „(not set)"-Anteile. Die Ursache (welcher Anteil von ITP, welcher von ETP, welcher von einem Setup-Fehler kommt) ist nicht zuordbar. Wenn Du hier falsch liegst, optimierst Du auf Zahlen, die Browser-Restriktionen bereits dezimiert haben, ohne dass Du es siehst.

Was vom Browser kommt, läuft an Plattformen, die ohnehin unterschiedlich zählen. Google dokumentiert elf Faktoren, durch die Daten in Google Ads und GA4 systematisch auseinanderlaufen: Click-Datum versus Conversion-Datum bei der Attribution, unterschiedliche Lookback-Windows von 30, 60 oder 90 Tagen, Invalid-Traffic-Filterungen die rückwirkend eingreifen, verschiedene Attributions-Modelle, View-Through-Conversions die in Standard-Spalten nicht erscheinen. Das ist kein Messfehler. Das ist systemische Diskrepanz. Auch bei Meta treten Diskrepanzen auf, etwa zwischen Events Manager und Ads Manager, die nach unterschiedlichen Definitionen zählen. Das Problem daran: Ein einzelnes Analyse-Tool, das nur GA4 liest, kann diese Diskrepanzen nicht abbilden. Wer auf einer Plattform optimiert, ohne die andere zu prüfen, entscheidet mit unvollständigem Bild.

Und kein Diagnose-Tool sieht die ganze Kette. Server-Side-Tagging und serverseitige Conversions-APIs sind für einen HTML-basierten Crawler strukturell unsichtbar. Sie erscheinen nicht im ausgelieferten Quellcode. Consent-Gate-Logik, also ob und wann ein Tag durch Consent blockiert wird, ist in Diagnose-Tools nicht implementierbar. Conversion-Modeling ist nicht von echten Events trennbar. Was ein Tool zeigt, ist die deklarierte Mess-Schicht. Was im Browser tatsächlich ausgeführt wird, ist eine andere Frage. Genau deshalb reicht ein Crawl Deiner Website nicht. Was im HTML-Quellcode steht, ist nur die deklarierte Mess-Schicht. Ob Dein Datenfluss als Entscheidungsgrundlage taugt, sehe ich erst, wenn ich Setup, Consent-Logik und Server-Seite zusammen prüfe, und nicht erst im Dashboard.

Jede dieser Grenzen sitzt vor dem Dashboard, im Setup, in der Browser-Architektur, in der Plattform-Logik, im Tool-Modell. Wer KI-Werkzeuge auf eine Datenbasis aufsetzt, die an diesen Stellen Lücken hat, verstärkt bestehende Fehler. Er schließt sie nicht.

Schlechte Daten werden durch KI nicht besser. Sie werden nur schneller zu falschen Entscheidungen.

Wenn Du Dich fragst, ob Deine Tracking-Basis trägt, ob das, was im Dashboard steht, Deine Entscheidungen wirklich stützt, welche Signale Du verlierst, ohne es zu merken, und wo Server-Seite, Consent-Setup und Modellierung zusammenspielen müssen, bevor KI darauf aufsetzen kann: Darüber spreche ich in der KI-Beratung. Nicht als Datenfluss-Vortrag, sondern als Arbeit an Deinem konkreten Stand.

Häufige Fragen

Was Entscheider oft fragen.