Het schoonmaken van de data verloopt in drie stappen. Bij elke stap is er een aantal vragen te beantwoorden.
Stap 1: structuur
Voor opslag, analyse en rapportage geldt dat de data een bepaalde structuur moeten hebben voor je ermee aan de slag kunt gaan. Je plan met de data bepaalt welke structuur je nodig hebt en of je eventueel de huidige structuur moet aanpassen.
Vragen bij deze stap:
- Wat is het format (type indeling)?
- Hoe zijn de data ingericht?
- Zijn de data geordend in kolommen of rijen?
- Uit welke bronnen komen de data? (bijvoorbeeld systemen, onderzoek)
- Bevatten de bronnen unieke sleutelvariabelen waarmee ze aan elkaar gekoppeld kunnen worden?
Stap 2: inhoud
Onderzoek de inhoud van de data. Breng in kaart wat je hebt, zodat je weet of je over de vereiste inhoud beschikt of dat er nog elementen ontbreken.
Vragen bij deze stap:
- Welke variabelen zijn aanwezig?
- Wat betekenen de variabelen?
- Hoe zijn de variabelen tot stand gekomen?
- Wat is mogelijk interessant om mee te nemen in de analyse?
- Kan ik de oorspronkelijke vraag beantwoorden met deze data?
- Zijn er andere relevante en belangrijke vragen die ik met deze gegevens kan analyseren?
Stap 3: kwaliteit
Hierbij ga je kijken naar de kwaliteit van de data. Als de kwaliteit van de data niet goed is zul je nooit een goede analyse of rapportage kunnen doen.
Vragen bij deze stap:
- Zijn er (veel) ontbrekende data?
- Zit er logica/consistentie in de data? Zijn de data valide?
- Bevatten de numerieke velden inderdaad uitsluitend getallen?
- Zijn er dubbelen waar dat niet zou mogen?
- Komen de data in het aangeleverde bestand overeen met die uit de bron?
- Komen data uit verschillende bronnen met elkaar overeen?
Als je de kwaliteit van de data gaat onderzoeken kun je bij het beantwoorden van de bovenstaande vragen verschillende fouten tegenkomen die ten koste gaan van de kwaliteit van de data. Het meest gemakkelijke is daarbij het traceren van de ontbrekende data. Die vind je al snel door te filteren op lege velden.