Datacleaning: wat is het eigenlijk?

HomeDatacleaning: wat is het eigenlijk?
26 juli 2021

Voordat je begint met de analyse van je data is het goed om te controleren of het veldwerk dat je hebt gedaan goed is uitgevoerd en geregistreerd. Zijn er voldoende respondenten, voldoende vragenlijsten, voldoende observaties, voldoende interviews? En het belangrijkste is je data representatief? Is het representatief voor de gehele onderzoekspopulatie? Om hierachter te komen is het goed om aan datacleaning te doen. Maar wat is dat eigenlijk?

Kwalitatieve datacleaning

Bij interviews of groepsgesprekken wil het wel eens dat er bepaalde informatie onderbelicht blijft. Kijk daarom halverwege je veldwerk of je al antwoord kunt geven op je onderzoeksvragen. Je hebt dan namelijk nog tijd om extra gesprekken in te plannen of je protocol aan te passen. Op deze manier krijg je alsnog de informatie boven die je nodig hebt. Wanneer je hier aan het eind van je veldwerk achter komt, moet je extra gesprekken inplannen om alsnog achter de informatie te komen.

Kwantitatieve datacleaning

Bij kwantitatieve data is het belangrijk om te controleren of je voldoende respons hebt ontvangen. Tevens kijk je of de aantallen representatief zijn voor je onderzoekspopulatie. Doe je een onderzoek in de provincie en je hebt alleen respons van één gemeente, dan is dit niet representatief voor de gehele provincie. Naast representativiteit moet je ook controleren op fouten bij invoeren en registreren. Als je fouten ontdekt in de registratie, kijk of je het kunt corrigeren zonder dat de data wordt veranderd. Als je veel fouten ontdekt, kijk waar de fout ligt en pas de vragenlijst aan en controleer intensiever de data.

Controleer of respondenten minimaal 2/3 van de vragen die ze hebben gekregen hebben ingevuld. Let op: soms krijgen ondervraagden slechts een deel van de vragenlijst te zien. Houd daar rekening mee. Als iemand minder dan 2/3 van de vragen heeft ingevuld, moet deze uit het databestand worden verwijderd.

Bekijk tevens de antwoorden van de respondenten, spreken de antwoorden elkaar tegen? Zijn de vragenlijsten ingevuld om ervan af te zijn, als iemand bijvoorbeeld altijd het eerste antwoord heeft aangekruist. Als er te veel interne tegenspraak is, de vragenlijst te onzorgvuldig ingevuld is of veel antwoorden ontbreken, verwijder dan de gehele vragenlijst. Deze antwoorden zijn niet betrouwbaar.

Zorg dat je een databestand hebt waar de goede data in staat, waarmee je de analyse kunt maken. Hierdoor wordt je analyse makkelijker en representatief.

Overzicht in je onderzoek

Wil jij overzicht in je onderzoek? Download mijn cheatsheet en je weet wanneer je wat moet doen in je onderzoek
Vraag hier de cheatsheet aan

Gerelateerde blogs

23 november 2022
Het werkgebied van een bibliotheek in kaart brengen

In deze blog richten we ons specifiek op bibliotheken, al is het voor andere organisaties (welzijnsorganisaties, gemeenten, scholen) ook interessant […]

Lees meer
8 november 2022
Hoe houd je je scriptie schrijven leuk

Je scriptie schrijven is niet altijd een leuke klus. Je hebt de informatie al zo vaak gezien en soms heb […]

Lees meer
11 oktober 2022
Hoe pak je het schrijven van het theoretisch kader voor je scriptie aan?

Een van de belangrijkste zaken bij het starten van je scriptie is het schrijven van je theoretisch kader. Maar hoe pak je dat het beste aan?

Lees meer
20 september 2022
Inventarisatie-onderzoek: wat is het en wanneer zet je het in?

Met inventarisatie-onderzoek wordt de stand van zaken op een bepaald gebied in kaart gebracht. Waarvoor wordt het ingezet?

Lees meer
Ericssonstraat 2
5121 ML  Rijen
Nederland
Claudia’s hart ligt bij onderzoek. Haar werkwijze is heel persoonlijk; ieder onderzoek vraagt tenslotte om maatwerk. Samen met de klant formuleert ze doelen, die ze vervolgens ook realiseert. Daarbij is ze volkomen transparant en deelt ze graag haar kennis en ervaring met anderen via haar laagdrempelige digitale cursussen en e-books.
© 2022 Claudia de Graauw. Alle rechten voorbehouden.
homeenvelopesmartphone