data-analyse Archieven - Claudia de Graauw

Wat is datacleaning?

Datacleaning betekent dat je je gegevens controleert en verbetert voordat je begint met analyseren. Je kijkt of de data volledig, betrouwbaar en bruikbaar is. Zijn er fouten gemaakt bij het invoeren? Zijn er vragenlijsten onvolledig ingevuld? Zijn de antwoorden logisch?

Bij kwalitatieve data, zoals interviews, controleer je of je genoeg informatie hebt om je onderzoeksvragen te beantwoorden. Soms moet je extra gesprekken voeren of je vragen aanpassen.

Bij kwantitatieve data, zoals vragenlijsten, kijk je of je genoeg respons hebt en of de antwoorden representatief zijn. Je controleert ook of de data klopt en of er geen tegenstrijdigheden in zitten.

Hoe doe je datacleaning bij kwantitatieve data?

Gebruik voor datacleaning programma’s zoals Excel, SPSS, R of Python. Maak altijd eerst een kopie van je originele data, zodat je fouten kunt herstellen.

Er zijn drie manieren om je kwantitatieve data op te schonen: verwijderen van een respondent, verwijderen van een antwoord of het vervangen van een antwoord. Deze methoden worden hieronder in het kort toegelicht.

Verwijderen van een respondent

Niet elke ingevulde vragenlijst is bruikbaar. Soms moet je een respondent uitsluiten om de kwaliteit van je data te waarborgen. Let op de volgende situaties:
Dubbele respondenten: alleen bij open links kunnen mensen meerdere keren meedoen. Het probleem doet zich met name voor wanneer er een beloning gekoppeld wordt aan deelname aan het onderzoek. Dit is helaas steeds vaker nodig om voldoende respons te krijgen. Controleer daarom op dubbele e-mailadressen of namen.
Niet-serieuze invullers: sommige respondenten vullen alles snel in of geven steeds dezelfde of onrealistische antwoorden. Kijk naar de invultijd en patronen in de antwoorden.
Respondenten buiten de doelgroep: Wanneer je gebruikmaakt van een open link, bijvoorbeeld verspreid via sociale media, bestaat de kans dat ook mensen buiten de beoogde doelgroep de vragenlijst invullen. Dit kan gebeuren, zelfs als in de introductietekst duidelijk is aangegeven voor wie de vragenlijst bedoeld is. Om dit te voorkomen, is het verstandig om aan het begin van de vragenlijst een filtervraag op te nemen. Hiermee kun je controleren of een respondent daadwerkelijk tot de doelgroep behoort. Respondenten die hier niet aan voldoen, kun je vervolgens uitsluiten van verdere analyse door hun antwoorden te verwijderen.
Deels ingevulde vragenlijsten: iets wat helaas veel gebeurt, is dat respondenten wel beginnen aan een vragenlijst, maar deze niet afmaken. Nu is het de vraag wanneer je respondenten wel of niet meeneemt bij deels ingevulde vragenlijsten. Een veelgebruikte grens is minimaal de helft ingevuld. Wees hierin consequent.

Verwijderen van een antwoord

Soms is het nodig om een antwoord uit een dataset te verwijderen, bijvoorbeeld wanneer het een waarde betreft die logisch gezien niet mogelijk is. Bij online vragenlijsten wordt hier vaak op gecontroleerd, maar dit is niet altijd het geval. Bij papieren vragenlijsten ontbreekt deze controle meestal volledig.

Een voorbeeld van een onlogische waarde is een extreem hoge of juist zeer lage leeftijd. Zulke uitschieters (outliers) kunnen eenvoudig worden opgespoord door een frequentietabel te genereren. Vaker echter gaat het om onlogische combinaties van antwoorden. Denk bijvoorbeeld aan een respondent van 30 jaar met 25 jaar werkervaring. In zulke gevallen is het niet altijd duidelijk welk antwoord onjuist is. De veiligste aanpak is dan om beide antwoorden te verwijderen.

Het opsporen van dit soort inconsistenties kan bijvoorbeeld met behulp van kruistabellen of door voorwaarden te stellen aan de data. Zo kun je ervoor kiezen om alleen respondenten mee te nemen waarvan de leeftijd minimaal 15 jaar hoger is dan het aantal dienstjaren.

Vervangen van een antwoord

Stel dat je wilt onderzoeken hoe vaak bewoners van een wijk de lokale supermarkt hebben bezocht in het afgelopen half jaar. In de vragenlijst worden hiervoor twee vragen gesteld:

Heeft u de supermarkt het afgelopen half jaar bezocht? (ja/nee)
Indien ja: Hoe vaak heeft u de supermarkt het afgelopen half jaar bezocht?

Wanneer je vervolgens het gemiddelde aantal bezoeken wilt berekenen op basis van vraag 2, ontstaat er een vertekend beeld. Respondenten die de supermarkt niet hebben bezocht, slaan vraag 2 over, waardoor hun antwoord ontbreekt in de berekening. Dit leidt tot een te hoog gemiddelde.

Een oplossing is om voor respondenten die op vraag 1 ‘nee’ hebben geantwoord, het aantal bezoeken in vraag 2 op nul te zetten. Op die manier worden ook deze respondenten meegenomen in de berekening, wat leidt tot een realistischer gemiddelde.

Tips voor het invoeren van data

Gebruik onderstaande tips om fouten in de invoer van data te voorkomen:

Gebruik een programma dat je goed kent, zoals Excel of SPSS.
Maak een duidelijke codering (bijv. ja = 1, nee = 0).
Gebruik een aparte code voor overgeslagen vragen (bijv. -1).
Geef elke vragenlijst een uniek nummer.
Zorg voor goede instructies voor wie de data invoert.
Begin op tijd en werk in kleine delen.
Controleer steekproefsgewijs en corrigeer fouten.

Tot slot

Datacleaning is een essentiële stap in elk onderzoek. Het zorgt ervoor dat je analyse klopt en dat je betrouwbare conclusies kunt trekken. Of je nu werkt met cijfers of verhalen: schoon je data op voordat je begint. Zo haal je het maximale uit je onderzoek.

Wanneer je interviews afneemt kun je veel te weten komen. Je verzamelt voornamelijk kwalitatieve data. (Er zijn enkele trucjes om ook kwantitatieve data te verzamelen.) Nog voordat je interview start, is het van belang dat je je interviewvragen goed gedefinieerd hebt. Want vragen stellen doe je niet voor de lol: ze moeten uiteindelijk antwoord geven op de hoofdvraag van je onderzoek. Daarom geef ik je tips hoe je je interviewvragen zo goed mogelijk vormgeeft:

Zorg dat je helder geformuleerde hoofd- en deelvragen paraat hebt.
Stel vragen op die aansluiten bij je hoofd- en deelvragen. Om er zeker van te zijn dat je ze allemaal kunt beantwoorden, zet je achter iedere vraag bij welke hoofd- of deelvraag de vraag aansluit.
Zet de vragen op een logische volgorde waarmee je overlap voorkomt.
Voorzie je interviewvragen van een introducerende tekst. Hierin staat waarom deelnemers worden geïnterviewd en hoe lang het interview duurt.
Formuleer je vragen zo, zodat de geïnterviewde ze begrijpt. Je kunt dit testen door het protocol te oefenen met je collega. Zo merk je ook of je vragen in de juiste volgorde gesteld worden.
Zorg dat je vragen objectief worden gesteld. Hierdoor voorkom je vooroordelen die ertoe leiden dat het onderzoek de verkeerde antwoorden geeft en blijft er ruimte om door te vragen tijdens je interview. Vooroordelen komen voor als je leidende vragen stelt zoals ‘Vind je ook niet dat’, ‘zou je…?’ of ‘Klopt het dat…?’.
Zorg ervoor dat er ruimte is om verdiepende vragen te stellen. Verdiepende vragen beginnen met ‘waarom’, ‘hoe’, ‘wat’ en ‘wie’. In deze vragen vind je dé ‘goudklompjes’ die speciale inzichten voor je onderzoek opleveren.
Stel een afsluitende tekst op met uitleg over wat er met de uitkomsten van het gesprek gebeurt.

Tot slot wil ik je meegeven dat het belangrijk is om objectief te blijven tijdens het interview. Je eigen mening speelt hierin geen rol. Zorg ervoor dat de geïnterviewde zijn eigen verhaal kan vertellen.

Meer tips om je interview goed voor te bereiden? Lees dan mijn blog ’10 tips om een interview voor te bereiden’ of ’15 tips voor een goed interview’.

Wat is datacleaning?

Hoe doe je datacleaning bij kwantitatieve data?

Verwijderen van een respondent

Verwijderen van een antwoord

Vervangen van een antwoord

Tips voor het invoeren van data

Tot slot

contactgegevens

Nieuwsbrief

Meer informatie

Gratis Producten

over Claudia de Graauw