Wat is datacleaning?

Datacleaning betekent dat je je gegevens controleert en verbetert voordat je begint met analyseren. Je kijkt of de data volledig, betrouwbaar en bruikbaar is. Zijn er fouten gemaakt bij het invoeren? Zijn er vragenlijsten onvolledig ingevuld? Zijn de antwoorden logisch?

Bij kwalitatieve data, zoals interviews, controleer je of je genoeg informatie hebt om je onderzoeksvragen te beantwoorden. Soms moet je extra gesprekken voeren of je vragen aanpassen.

Bij kwantitatieve data, zoals vragenlijsten, kijk je of je genoeg respons hebt en of de antwoorden representatief zijn. Je controleert ook of de data klopt en of er geen tegenstrijdigheden in zitten.

Hoe doe je datacleaning bij kwantitatieve data?

Gebruik voor datacleaning programma’s zoals Excel, SPSS, R of Python. Maak altijd eerst een kopie van je originele data, zodat je fouten kunt herstellen.

Er zijn drie manieren om je kwantitatieve data op te schonen: verwijderen van een respondent, verwijderen van een antwoord of het vervangen van een antwoord. Deze methoden worden hieronder in het kort toegelicht.

Verwijderen van een respondent

Verwijderen van een antwoord

Soms is het nodig om een antwoord uit een dataset te verwijderen, bijvoorbeeld wanneer het een waarde betreft die logisch gezien niet mogelijk is. Bij online vragenlijsten wordt hier vaak op gecontroleerd, maar dit is niet altijd het geval. Bij papieren vragenlijsten ontbreekt deze controle meestal volledig.

Een voorbeeld van een onlogische waarde is een extreem hoge of juist zeer lage leeftijd. Zulke uitschieters (outliers) kunnen eenvoudig worden opgespoord door een frequentietabel te genereren. Vaker echter gaat het om onlogische combinaties van antwoorden. Denk bijvoorbeeld aan een respondent van 30 jaar met 25 jaar werkervaring. In zulke gevallen is het niet altijd duidelijk welk antwoord onjuist is. De veiligste aanpak is dan om beide antwoorden te verwijderen.

Het opsporen van dit soort inconsistenties kan bijvoorbeeld met behulp van kruistabellen of door voorwaarden te stellen aan de data. Zo kun je ervoor kiezen om alleen respondenten mee te nemen waarvan de leeftijd minimaal 15 jaar hoger is dan het aantal dienstjaren.

Vervangen van een antwoord

Stel dat je wilt onderzoeken hoe vaak bewoners van een wijk de lokale supermarkt hebben bezocht in het afgelopen half jaar. In de vragenlijst worden hiervoor twee vragen gesteld:

Wanneer je vervolgens het gemiddelde aantal bezoeken wilt berekenen op basis van vraag 2, ontstaat er een vertekend beeld. Respondenten die de supermarkt niet hebben bezocht, slaan vraag 2 over, waardoor hun antwoord ontbreekt in de berekening. Dit leidt tot een te hoog gemiddelde.

Een oplossing is om voor respondenten die op vraag 1 ‘nee’ hebben geantwoord, het aantal bezoeken in vraag 2 op nul te zetten. Op die manier worden ook deze respondenten meegenomen in de berekening, wat leidt tot een realistischer gemiddelde.

Tips voor het invoeren van data

Gebruik onderstaande tips om fouten in de invoer van data te voorkomen:

Tot slot

Datacleaning is een essentiële stap in elk onderzoek. Het zorgt ervoor dat je analyse klopt en dat je betrouwbare conclusies kunt trekken. Of je nu werkt met cijfers of verhalen: schoon je data op voordat je begint. Zo haal je het maximale uit je onderzoek.

Wanneer je interviews afneemt kun je veel te weten komen. Je verzamelt voornamelijk kwalitatieve data. (Er zijn enkele trucjes om ook kwantitatieve data te verzamelen.) Nog voordat je interview start, is het van belang dat je je interviewvragen goed gedefinieerd hebt. Want vragen stellen doe je niet voor de lol: ze moeten uiteindelijk antwoord geven op de hoofdvraag van je onderzoek. Daarom geef ik je tips hoe je je interviewvragen zo goed mogelijk vormgeeft:

  1. Zorg dat je helder geformuleerde hoofd- en deelvragen paraat hebt.
  2. Stel vragen op die aansluiten bij je hoofd- en deelvragen. Om er zeker van te zijn dat je ze allemaal kunt beantwoorden, zet je achter iedere vraag bij welke hoofd- of deelvraag de vraag aansluit.
  3. Zet de vragen op een logische volgorde waarmee je overlap voorkomt.
  4. Voorzie je interviewvragen van een introducerende tekst. Hierin staat waarom deelnemers worden geïnterviewd en hoe lang het interview duurt.
  5. Formuleer je vragen zo, zodat de geïnterviewde ze begrijpt. Je kunt dit testen door het protocol te oefenen met je collega. Zo merk je ook of je vragen in de juiste volgorde gesteld worden.
  6. Zorg dat je vragen objectief worden gesteld. Hierdoor voorkom je vooroordelen die ertoe leiden dat het onderzoek de verkeerde antwoorden geeft en blijft er ruimte om door te vragen tijdens je interview. Vooroordelen komen voor als je leidende vragen stelt zoals ‘Vind je ook niet dat’, ‘zou je…?’ of ‘Klopt het dat…?’.
  7. Zorg ervoor dat er ruimte is om verdiepende vragen te stellen. Verdiepende vragen beginnen met ‘waarom’, ‘hoe’, ‘wat’ en ‘wie’. In deze vragen vind je dé ‘goudklompjes’ die speciale inzichten voor je onderzoek opleveren.
  8. Stel een afsluitende tekst op met uitleg over wat er met de uitkomsten van het gesprek gebeurt.

Tot slot wil ik je meegeven dat het belangrijk is om objectief te blijven tijdens het interview. Je eigen mening speelt hierin geen rol. Zorg ervoor dat de geïnterviewde zijn eigen verhaal kan vertellen.

Meer tips om je interview goed voor te bereiden? Lees dan mijn blog ’10 tips om een interview voor te bereiden’ of ’15 tips voor een goed interview’.

Ericssonstraat 2
5121 ML  Rijen
Nederland
Claudia’s hart ligt bij onderzoek. Haar werkwijze is heel persoonlijk; ieder onderzoek vraagt tenslotte om maatwerk. Samen met de klant formuleert ze doelen, die ze vervolgens ook realiseert. Daarbij is ze volkomen transparant en deelt ze graag haar kennis en ervaring.
© 2022 – 2025 Claudia de Graauw. Alle rechten voorbehouden.
homeenvelopesmartphone