Cherry picking is een van de valkuilen als je met data werkt. Bekijk de data dan ook altijd vanuit verschillende kanten en over verschillende perioden. Denk ook aan het gebruik van een selectie uit de data. Zorg dat altijd duidelijk is welke selectie je hebt gebruikt. En stem van tevoren af wanneer het resultaat goed of fout is, is het advies van data- en analytics-expert Irma Doze.

Door: Irma Doze

Ik geloof in de kracht van data. Cijfers zijn onpartijdig en spreken de waarheid. Toch kan het nog steeds zo zijn dat we onjuiste conclusies trekken. Het is namelijk niet altijd even makkelijk om data op de juiste manier te interpreteren. Onlangs publiceerde het VN-klimaatpanel IPCC een nieuw rapport met als (neutrale) titel ‘Climate Change 2023’. Het is interessant hoe dit vervolgens is opgepakt in de diverse media:

  • AD: als we doen wat we beloven, warmt de aarde eind deze eeuw slechts 2 graden op;
  • Volkskrant: alarmerend IPCC-rapport: natuur kan veranderende klimaat niet meer bijbenen, impact nóg groter;
  • Telegraaf: Klimaatpanel milder: ‘Gevolgen opwarming met technologie te bestrijden.’

‘Hoewel alle journalisten hetzelfde rapport met dezelfde data hebben ontvangen, is de eindconclusie toch heel verschillend’

Hoewel alle journalisten hetzelfde rapport met dezelfde data hebben ontvangen, is de eindconclusie toch heel verschillend. Dat gebeurde ook in januari toen er op een en dezelfde dag twee artikelen verschenen over de huizenprijzen. Het ene artikel meldde een stijging van de prijzen, terwijl het andere juist een daling beschreef. Het gekke is dat beide artikelen niet gelogen zijn. Het ene artikel vergelijkt de prijzen jaar op jaar, terwijl in het andere artikel het verschil tussen twee opeenvolgende maanden wordt weergegeven.

Hersenen gaan vanzelf op zoek naar bevestiging

Dit fenomeen heet cherry picking en is een van de valkuilen waarop iedereen die met data werkt kans maakt om in te trappen. Dit gebeurt vaak onbewust, zoals wanneer we een sollicitant spreken en na twintig seconden denken ‘dit wordt ‘m niet’. Onze hersenen gaan dan vanzelf op zoek naar bevestiging van die overtuiging en negeren alles wat dit onderbuikgevoel tegenspreekt.

‘Ook zijn we vaak gewoon onbedoeld lui’

Ook zijn we vaak gewoon onbedoeld lui. Het is eenvoudigweg gemakkelijker om een paar stukjes informatie te kiezen en daar je standpunt op te baseren, dan om alle beschikbare informatie zorgvuldig te analyseren. Ga maar eens na voor jezelf hoe jij in een restaurant je eten uitkiest. Scroll je door het menu tot je iets lekkers tegenkomt? Of lees je altijd eerst het hele menu door voordat je je keuze maakt?

Valkuil bewust misbruikt

Het is echter ook een valkuil die regelmatig bewust misbruikt wordt. Zoals wanneer we alleen de laatste twee maanden presenteren om een verbetering van de resultaten te laten zien, bijvoorbeeld een stijging van het aantal sollicitanten per vacature. Terwijl als we de langere trend zouden meenemen, we misschien wel nog steeds 20% lager zitten dan in de maanden ervoor.

‘Cherry picking gebeurt niet altijd bewust, maar kan bijvoorbeeld ook afhangen van de hoeveelheid data die je beschikbaar hebt’

Het is belangrijk om te beseffen dat cherry picking niet altijd bewust gebeurt, maar bijvoorbeeld ook kan afhangen van de hoeveelheid data die je beschikbaar hebt. Zo zou de dip in het aantal sollicitanten zich in de betreffende maanden ook ieder jaar opnieuw kunnen voordoen; een gevolg van een seizoenspatroon. Dit kan je conclusie opnieuw beïnvloeden. Wat als het resultaat weliswaar lager is dan in de zes maanden ervoor, maar wellicht toch weer 5% hoger dan het jaar ervoor in dezelfde periode?

Wat doe je eraan?

Bedenk altijd: ‘Is het vraagstuk van alle kanten bekeken? Is er aanvullende informatie die ik zou moeten gebruiken in mijn analyse?’. Bekijk de data altijd vanuit verschillende kanten en over verschillende perioden. Denk ook aan het gebruik van een selectie uit de data. Zorg dat altijd duidelijk is welke selectie je hebt gebruikt. En een van de dingen die ik zeker kan aanraden: stem van tevoren af wanneer het resultaat goed of fout is. Dit vragen we bijvoorbeeld ook altijd vooraf bij een gelijke-beloningsanalyse. Wanneer is het verschil klein, groot of te groot? Op die manier wordt de ruimte om – bewust of onbewust – te cherry picken aanzienlijk kleiner.