databestand Archieven - Claudia de Graauw

Wat is datacleaning?

Datacleaning betekent dat je je gegevens controleert en verbetert voordat je begint met analyseren. Je kijkt of de data volledig, betrouwbaar en bruikbaar is. Zijn er fouten gemaakt bij het invoeren? Zijn er vragenlijsten onvolledig ingevuld? Zijn de antwoorden logisch?

Bij kwalitatieve data, zoals interviews, controleer je of je genoeg informatie hebt om je onderzoeksvragen te beantwoorden. Soms moet je extra gesprekken voeren of je vragen aanpassen.

Bij kwantitatieve data, zoals vragenlijsten, kijk je of je genoeg respons hebt en of de antwoorden representatief zijn. Je controleert ook of de data klopt en of er geen tegenstrijdigheden in zitten.

Hoe doe je datacleaning bij kwantitatieve data?

Gebruik voor datacleaning programma’s zoals Excel, SPSS, R of Python. Maak altijd eerst een kopie van je originele data, zodat je fouten kunt herstellen.

Er zijn drie manieren om je kwantitatieve data op te schonen: verwijderen van een respondent, verwijderen van een antwoord of het vervangen van een antwoord. Deze methoden worden hieronder in het kort toegelicht.

Verwijderen van een respondent

Niet elke ingevulde vragenlijst is bruikbaar. Soms moet je een respondent uitsluiten om de kwaliteit van je data te waarborgen. Let op de volgende situaties:
Dubbele respondenten: alleen bij open links kunnen mensen meerdere keren meedoen. Het probleem doet zich met name voor wanneer er een beloning gekoppeld wordt aan deelname aan het onderzoek. Dit is helaas steeds vaker nodig om voldoende respons te krijgen. Controleer daarom op dubbele e-mailadressen of namen.
Niet-serieuze invullers: sommige respondenten vullen alles snel in of geven steeds dezelfde of onrealistische antwoorden. Kijk naar de invultijd en patronen in de antwoorden.
Respondenten buiten de doelgroep: Wanneer je gebruikmaakt van een open link, bijvoorbeeld verspreid via sociale media, bestaat de kans dat ook mensen buiten de beoogde doelgroep de vragenlijst invullen. Dit kan gebeuren, zelfs als in de introductietekst duidelijk is aangegeven voor wie de vragenlijst bedoeld is. Om dit te voorkomen, is het verstandig om aan het begin van de vragenlijst een filtervraag op te nemen. Hiermee kun je controleren of een respondent daadwerkelijk tot de doelgroep behoort. Respondenten die hier niet aan voldoen, kun je vervolgens uitsluiten van verdere analyse door hun antwoorden te verwijderen.
Deels ingevulde vragenlijsten: iets wat helaas veel gebeurt, is dat respondenten wel beginnen aan een vragenlijst, maar deze niet afmaken. Nu is het de vraag wanneer je respondenten wel of niet meeneemt bij deels ingevulde vragenlijsten. Een veelgebruikte grens is minimaal de helft ingevuld. Wees hierin consequent.

Verwijderen van een antwoord

Soms is het nodig om een antwoord uit een dataset te verwijderen, bijvoorbeeld wanneer het een waarde betreft die logisch gezien niet mogelijk is. Bij online vragenlijsten wordt hier vaak op gecontroleerd, maar dit is niet altijd het geval. Bij papieren vragenlijsten ontbreekt deze controle meestal volledig.

Een voorbeeld van een onlogische waarde is een extreem hoge of juist zeer lage leeftijd. Zulke uitschieters (outliers) kunnen eenvoudig worden opgespoord door een frequentietabel te genereren. Vaker echter gaat het om onlogische combinaties van antwoorden. Denk bijvoorbeeld aan een respondent van 30 jaar met 25 jaar werkervaring. In zulke gevallen is het niet altijd duidelijk welk antwoord onjuist is. De veiligste aanpak is dan om beide antwoorden te verwijderen.

Het opsporen van dit soort inconsistenties kan bijvoorbeeld met behulp van kruistabellen of door voorwaarden te stellen aan de data. Zo kun je ervoor kiezen om alleen respondenten mee te nemen waarvan de leeftijd minimaal 15 jaar hoger is dan het aantal dienstjaren.

Vervangen van een antwoord

Stel dat je wilt onderzoeken hoe vaak bewoners van een wijk de lokale supermarkt hebben bezocht in het afgelopen half jaar. In de vragenlijst worden hiervoor twee vragen gesteld:

Heeft u de supermarkt het afgelopen half jaar bezocht? (ja/nee)
Indien ja: Hoe vaak heeft u de supermarkt het afgelopen half jaar bezocht?

Wanneer je vervolgens het gemiddelde aantal bezoeken wilt berekenen op basis van vraag 2, ontstaat er een vertekend beeld. Respondenten die de supermarkt niet hebben bezocht, slaan vraag 2 over, waardoor hun antwoord ontbreekt in de berekening. Dit leidt tot een te hoog gemiddelde.

Een oplossing is om voor respondenten die op vraag 1 ‘nee’ hebben geantwoord, het aantal bezoeken in vraag 2 op nul te zetten. Op die manier worden ook deze respondenten meegenomen in de berekening, wat leidt tot een realistischer gemiddelde.

Tips voor het invoeren van data

Gebruik onderstaande tips om fouten in de invoer van data te voorkomen:

Gebruik een programma dat je goed kent, zoals Excel of SPSS.
Maak een duidelijke codering (bijv. ja = 1, nee = 0).
Gebruik een aparte code voor overgeslagen vragen (bijv. -1).
Geef elke vragenlijst een uniek nummer.
Zorg voor goede instructies voor wie de data invoert.
Begin op tijd en werk in kleine delen.
Controleer steekproefsgewijs en corrigeer fouten.

Tot slot

Datacleaning is een essentiële stap in elk onderzoek. Het zorgt ervoor dat je analyse klopt en dat je betrouwbare conclusies kunt trekken. Of je nu werkt met cijfers of verhalen: schoon je data op voordat je begint. Zo haal je het maximale uit je onderzoek.

Wat is datacleaning?

Hoe doe je datacleaning bij kwantitatieve data?

Verwijderen van een respondent

Verwijderen van een antwoord

Vervangen van een antwoord

Tips voor het invoeren van data

Tot slot

contactgegevens

Nieuwsbrief

Meer informatie

Gratis Producten

over Claudia de Graauw