Je hebt een plan, een doel, en je bent enthousiast gestart. Maar ergens sluimert de vraag: werkt het eigenlijk wel? […]
Datacleaning betekent dat je je gegevens controleert en verbetert voordat je begint met analyseren. Je kijkt of de data volledig, betrouwbaar en bruikbaar is. Zijn er fouten gemaakt bij het invoeren? Zijn er vragenlijsten onvolledig ingevuld? Zijn de antwoorden logisch?
Bij kwalitatieve data, zoals interviews, controleer je of je genoeg informatie hebt om je onderzoeksvragen te beantwoorden. Soms moet je extra gesprekken voeren of je vragen aanpassen.
Bij kwantitatieve data, zoals vragenlijsten, kijk je of je genoeg respons hebt en of de antwoorden representatief zijn. Je controleert ook of de data klopt en of er geen tegenstrijdigheden in zitten.
Gebruik voor datacleaning programma’s zoals Excel, SPSS, R of Python. Maak altijd eerst een kopie van je originele data, zodat je fouten kunt herstellen.
Er zijn drie manieren om je kwantitatieve data op te schonen: verwijderen van een respondent, verwijderen van een antwoord of het vervangen van een antwoord. Deze methoden worden hieronder in het kort toegelicht.
Soms is het nodig om een antwoord uit een dataset te verwijderen, bijvoorbeeld wanneer het een waarde betreft die logisch gezien niet mogelijk is. Bij online vragenlijsten wordt hier vaak op gecontroleerd, maar dit is niet altijd het geval. Bij papieren vragenlijsten ontbreekt deze controle meestal volledig.
Een voorbeeld van een onlogische waarde is een extreem hoge of juist zeer lage leeftijd. Zulke uitschieters (outliers) kunnen eenvoudig worden opgespoord door een frequentietabel te genereren. Vaker echter gaat het om onlogische combinaties van antwoorden. Denk bijvoorbeeld aan een respondent van 30 jaar met 25 jaar werkervaring. In zulke gevallen is het niet altijd duidelijk welk antwoord onjuist is. De veiligste aanpak is dan om beide antwoorden te verwijderen.
Het opsporen van dit soort inconsistenties kan bijvoorbeeld met behulp van kruistabellen of door voorwaarden te stellen aan de data. Zo kun je ervoor kiezen om alleen respondenten mee te nemen waarvan de leeftijd minimaal 15 jaar hoger is dan het aantal dienstjaren.
Stel dat je wilt onderzoeken hoe vaak bewoners van een wijk de lokale supermarkt hebben bezocht in het afgelopen half jaar. In de vragenlijst worden hiervoor twee vragen gesteld:
Wanneer je vervolgens het gemiddelde aantal bezoeken wilt berekenen op basis van vraag 2, ontstaat er een vertekend beeld. Respondenten die de supermarkt niet hebben bezocht, slaan vraag 2 over, waardoor hun antwoord ontbreekt in de berekening. Dit leidt tot een te hoog gemiddelde.
Een oplossing is om voor respondenten die op vraag 1 ‘nee’ hebben geantwoord, het aantal bezoeken in vraag 2 op nul te zetten. Op die manier worden ook deze respondenten meegenomen in de berekening, wat leidt tot een realistischer gemiddelde.
Gebruik onderstaande tips om fouten in de invoer van data te voorkomen:
Datacleaning is een essentiële stap in elk onderzoek. Het zorgt ervoor dat je analyse klopt en dat je betrouwbare conclusies kunt trekken. Of je nu werkt met cijfers of verhalen: schoon je data op voordat je begint. Zo haal je het maximale uit je onderzoek.
Je hebt een plan, een doel, en je bent enthousiast gestart. Maar ergens sluimert de vraag: werkt het eigenlijk wel? […]
Een scriptie schrijven is voor veel studenten een flinke uitdaging. Het is een lang proces waarin je niet alleen moet […]
Een vragenlijst uitzetten is een goede methode om veel mensen op dezelfde manier te bevragen. Bij voldoende respons krijg je […]
Je bent enthousiast gestart met een project, programma of activiteit. Alles loopt, de eerste reacties zijn positief, en je denkt: […]
Ben je cursist? Log hier in op de Academie voor Onderzoek