Kennisbank artikel

Ontbrekende data in GA4: Data sampling en oplossingen

8 minuten leestijd

Google Analytics laat niet al jouw data zien. En zij zijn niet de enigen. Google en andere online advertentieproviders staan erom bekend hun Machine Learning-mogelijkheden te gebruiken om de manier waarop ze advertenties serveren te optimaliseren. Daarom worden deze systemen steeds meer een black box genoemd door adverteerders die in het verleden toegang hadden tot alle interactiegegevens om hun campagnes te optimaliseren. Helaas worden dezelfde technieken vandaag de dag ook gebruikt in GA4, wat het voor analisten moeilijker kan maken om te begrijpen wat hun gebruikers willen.

Maar daar gaat dit artikel niet over. Hier zullen we kijken naar een andere techniek die wordt gebruikt, waardoor de analyse minder betrouwbaar wordt. Ik heb het natuurlijk over data sampling. In dit artikel gaan we kijken naar wat data sampling is, waarom je hier rekening mee moet houden, hoe je weet wanneer je gegevens worden gesampled en hoe je dit kunt vermijden. Let’s go!

Wat zijn gegevensmonsters?

Om te beginnen moeten we begrijpen wat data sampling is. Bemonstering is een statistische analyse techniek die wordt gebruikt om patronen en trends in een grotere dataset te identificeren door een representatieve subset van datapunten te selecteren, manipuleren en analyseren. Door gebruik te maken van een klein, beheersbaar deel van de gegevens kunnen datawetenschappers, voorspellende modelbouwers en andere gegevensanalisten sneller analytische modellen bouwen en uitvoeren, terwijl ze toch nauwkeurigheid behalen.

Met andere woorden, het kost tijd om je resultaten te berekenen en te presenteren in je GA-rapporten. In sommige gevallen neemt GA daarom een deel van de gegevens en gebruikt dit om het totaal te schatten: gegevensmonsters. Je ziet waarschijnlijk al enkele nadelen van deze praktijk, maar waarom moet je je er druk over maken?

Waarom moet je je hier druk over maken?

Waarom maakt het uit dat sommige analytics tools zoals GA4 gegevens sampelen en andere niet? Welnu, bemonsterde gegevens zijn niet de volledige dataset en zijn daarom minder nauwkeurig en betrouwbaar. Zo simpel is het.

Natuurlijk zijn er ook voordelen aan gegevensmonsters. Het enige is dat deze voordelen voornamelijk voor de leverancier van de tool zijn. Maar laten we eens kijken naar de voor- en nadelen van data sampling.

De voordelen van gegevensmonsters

1. Lage kosten van sampling

Een groot voordeel van data sampling is dat het de kosten voor het produceren van je rapport vermindert. Dit is natuurlijk alleen een voordeel voor de leverancier van de analytics.

2. Minder tijdrovend

Het gebruik van data sampling kost ook minder tijd. Op deze manier kunnen analytics tools zoals GA4 je veel sneller het gewenste rapport bieden.

3. Meer beheersbare datasets

Sampling maakt het gemakkelijker om grote hoeveelheden data te beheren en te verwerken, wat vooral handig is bij beperkte middelen.

De nadelen van data sampling

1. Kans op vertekening

Het grote nadeel van de sampling-methode is dat het leidt tot een vertekende selectie en daarmee tot verkeerde conclusies. Vertekening ontstaat wanneer de selectiemethode van de samples gebrekkig is.

2. Moeilijkheden bij het selecteren van een werkelijk representatief sample

Een werkelijk representatief monster levert alleen betrouwbare en accurate resultaten op als het representatief is voor de hele dataset. Goede monsters selecteren is moeilijk.

3. Beperkte precisie van de resultaten

Sampling kan leiden tot onnauwkeurige resultaten, omdat de steekproefgrootte mogelijk niet groot genoeg is om alle nuances van de data vast te leggen.

Zoals je kunt zien, is data sampling in het geval van een tool zoals GA4 niet erg voordelig voor je resultaten. Het enige directe voordeel voor jou is dat je rapporten sneller laden, maar tegen welke prijs? Het is dan ook belangrijk om te detecteren wanneer je rapporten zijn gebaseerd op gesamplede gegevens.

Wanneer kan je data worden gesampled in GA4?

Google Analytics 4 bemonstert niet altijd je rapporten. Dit gebeurt eigenlijk alleen wanneer je te maken hebt met zeer grote datasets. Om precies te zijn worden je rapporten bemonsterd vanaf 500.000 sessies in GA4 en vanaf 100 miljoen sessies in GA360 (op weergaveniveau).

Een pluspunt is echter dat standaardrapporten altijd onbemonsterd zijn. Alleen geavanceerde rapporten zoals exploraties kunnen gesampled worden. Dus wanneer je een kleinere website runt en je analyse beperkt tot kortere periodes van een paar maanden per keer, word je niet onderworpen aan data sampling.

Zoals je kunt zien, hebben GA360-gebruikers iets meer flexibiliteit. De sample treshold ligt veel hoger en onlangs heeft Google een nieuwe functie toegevoegd waarmee gebruikers kunnen schakelen tussen snellere analyse (met toegepaste data sampling) of nauwkeurigere resultaten (geen toegepaste data sampling). Bovendien is er een onbemonsterde exploration-beta beschikbaar voor GA360-gebruikers. Hiermee kunnen gebruikers exploraties maken met maximaal 50 miljard events voor meer nauwkeurigheid.

Hoe weet je of je data wordt gesampled in GA4?

ijk bovenaan je rapport. Als er een groen vinkje staat, dan is het niet gesampled. Als je een geel of rood % symbool ziet, is je rapport gesampled. Beweeg eroverheen om het percentage van de toegepaste steekproef te zien.

In GA360 vind je hier de schakelaar tussen de twee analyseopties.

Hoe voorkom je gegevenssampling in GA4?

Beperk de datumbereik

Wanneer je het datumbereik verkleint, verklein je de omvang van de dataset totdat deze kleiner is dan 500k sessies om sampling te vermijden.

Vereenvoudig je rapport

Het vereenvoudigen van je rapporten vermindert ook de omvang van de dataset en daarmee de kans dat je gegevens worden gesampled.

Gebruik BigQuery

Wanneer je BigQuery gebruikt om je gegevens te analyseren, wordt er nooit gegevenssampling toegepast. Dat is het mooie van BigQuery. Het nadeel is dat het niet gratis is. In BigQuery betaal je per query die je uitvoert.

Google heeft het heel gemakkelijk gemaakt om BigQuery te gebruiken met GA4-gegevens. In het beheerderspaneel van GA4 in de eigenschapskolom vind je een optie voor BigQuery-integratie. Zodra je hier de accounts koppelt, stroomt je GA4 automatisch naar BigQuery voor analyse.

Gebruik GA360

Zoals ik al zei, biedt GA360 je meer flexibiliteit en hogere drempels voor gegevenssampling.

Gebruik een andere webanalysetool

Er zijn veel andere webanalysetools die geen gegevenssampling gebruiken in hun rapporten. Als je meer wilt weten over alternatieven voor Google Analytics, kun je onze functievergelijkingstool bekijken. Hiermee kun je meer dan 40 tools in detail vergelijken en zien welke wel of geen gegevenssampling gebruiken.

De conclusie

Zoals je hebt gezien, is gegevenssampling een handige techniek, alleen kan het je een verkeerd beeld geven van je gebruikers. Weet hoe je het kunt herkennen en er rekening mee kunt houden, of kies gewoon een alternatief. Veel succes met analyseren!

Profielfoto Freek Kampen

Door Freek Kampen

Data & Analytics consultant en mede-eigenaar van New North Digital. Met een achtergrond in online advertising los ik tracking en data vraagstukken op voor ondernemers en agencies.

Op zoek naar groei? ▸ Set your New North ▸