analyse Archieven - Claudia de Graauw

Om diverse redenen kan het in een onderzoek voorkomen dat je meer vragen stelt over hetzelfde begrip. De analyse van al die vragen kan ingewikkeld zijn. Om de resultaten inzichtelijker te maken, is het samenvoegen van de items tot een schaal behulpzaam. Je voegt dan de verschillende items samen tot een nieuwe variabele: de schaal. Waarom doe je dit en op welke manier?

Waarom?

Het is slim om een onderwerp op een paar manieren te bevragen, omdat:

de betekenis van het begrip dan beter wordt afgedekt. Dit geeft een grotere validiteit.
er dan minder invloed van toeval is en is de betrouwbaarheid van je antwoorden groter.
je zo meer onderscheid kunt maken tussen je respondenten.

Hoe?

Als je items wilt samenvoegen, geef je alle respondenten een score op de nieuwe schaal. Er zijn verschillende manieren om dit te doen:

De gemiddelde score berekenen over alle items per respondent. Dit kan alleen als de antwoord categorieën bij alle items gelijk zijn, bijvoorbeeld bij een aantal stellingen.
Een factoranalyse uitvoeren: van de items worden factorscores berekend per respondent. De factorscores kun je wegschrijven als score op de nieuwe schaalvariabele. Bij deze methode wegen alle items gelijk mee.
De som berekenen van de score van alle items. Dit kan ook als de antwoord categorieën niet bij alle items gelijk zijn. Bedenk hierbij echter goed wat je optelt en wat dat betekent.

De inhoud staat voorop bij het construeren van een nieuwe schaal. Rekentechnisch kun je allerlei variabelen samenvoegen, maar het moet inhoudelijk en onderzoekstechnisch wel verantwoord zijn om dat te doen.

Vergeet niet om de validiteit en betrouwbaarheid van de schaal te onderzoeken.

In deze blog richten we ons op kwantitatieve data, data bijvoorbeeld verkregen uit vragenlijsten (meer weten over vragenlijsten? Lees deze blog). Deze data ga je analyseren, maar voordat je daaraan begint is het goed om de kwaliteit van je data te optimaliseren. Dit doe je door de data te cleanen om vervolgens met goede data aan de analyse en rapportage te beginnen. Een rapport op basis van vervuilde en/of incomplete data kan nooit van goede kwaliteit zijn en kan ook niet tot de juiste conclusies/aanbevelingen leiden. Dus CLEANING.

Veel gebruikte software voor cleaning zijn Excel, SPSS, SAS, R en Python. Het is verstandig om voordat je hieraan gaat beginnen een kopie van je data te maken, zodat je altijd nog kunt teruggrijpen naar je originele data. In hoofdlijnen zijn er 3 methoden om je data te cleanen:

Het verwijderen van een respondent
Het verwijderen van een antwoord van een respondent
Het vervangen van een antwoord door een andere waarde

Deze methoden worden in het kort hieronder toegelicht.

Het verwijderen van een respondent

Tegenwoordig is het lastig om voldoende respons te krijgen, dus elke respondent is meegenomen. Toch is het soms verstandig om een respons te verwijderen, maar waarom zou je dit doen?

Een respondent heeft maar een klein deel van de vragenlijst ingevuld
Een respondent heeft steeds het bovenste antwoord gekozen en open vragen overgeslagen
Een respondent heeft de vragenlijst veel sneller ingevuld dan een gemiddelde respondent

Een respondent behoort niet tot de doelgroep (bijvoorbeeld een beoordeling van een voorstelling, van iemand die wel een kaartje heeft gekocht, maar toch niet het concert heeft bezocht)

Het verwijderen van een antwoord van een respondent

Hierbij kan het gaan over een waarde die logischerwijs niet voor kan komen. Bij een online vragenlijst wordt hier vaak al op gecontroleerd, maar niet altijd en bij papieren vragenlijsten gebeurt dit sowieso niet. Bijvoorbeeld een hele hoge of juist heel lage leeftijd. Het detecteren van dit soort ‘outliers’ kan simpelweg door een frequency uit te draaien.

Veel vaker gaat het hierbij om combinaties van antwoorden. Ook hiervoor kan bij een online vragenlijst een controle worden ingebouwd, maar gebeurt lang niet altijd. Denk bijvoorbeeld aan iemand van 30 jaar met 25 jaar werkervaring. Het oplossen hiervan is niet altijd makkelijk. Welk antwoord is in dit voorbeeld fout? Beste is om beide antwoorden te verwijderen. Het detecteren van dit soort ‘fouten’ kan door kruistabellen te draaien of door respondenten alleen mee te nemen wanneer aan een voorwaarde wordt voldaan, bijvoorbeeld dat de leeftijd minimaal 15 jaar hoger moet zijn dan het aantal dienstjaren.

Het vervangen van een antwoord door een andere waarde

Stel: je wilt weten hoe vaak een wijkbewoner de lokale supermarkt heeft bezocht het afgelopen half jaar. In de vragenlijst worden hier 2 vragen over gesteld.

Heeft u de supermarkt het afgelopen jaar bezocht (ja/nee)

Zo ja (doorverwijzing) Hoe vaak heeft u de supermarkt het afgelopen jaar bezocht?

Wanneer je nu het gemiddelde aantal bezoeken wilt weten en je draait een gemiddelde van vraag 2, dan kom je te hoog uit, aangezien bij diegenen die de supermarkt niet hebben bezocht deze vraag leeg is. Een oplossing is om bij diegenen die op vraag 1 ‘nee’ hebben beantwoord, vraag 2 op nul te zetten. En dan een gemiddelde berekenen.

Wil je meer weten over wat datacleaning inhoudt? Lees het hier.

Voordat je begint met de analyse van je data is het goed om te controleren of het veldwerk dat je hebt gedaan goed is uitgevoerd en geregistreerd. Zijn er voldoende respondenten, voldoende vragenlijsten, voldoende observaties, voldoende interviews? En het belangrijkste is je data representatief? Is het representatief voor de gehele onderzoekspopulatie? Om hierachter te komen is het goed om aan datacleaning te doen. Maar wat is dat eigenlijk?

Kwalitatieve datacleaning

Bij interviews of groepsgesprekken wil het wel eens dat er bepaalde informatie onderbelicht blijft. Kijk daarom halverwege je veldwerk of je al antwoord kunt geven op je onderzoeksvragen. Je hebt dan namelijk nog tijd om extra gesprekken in te plannen of je protocol aan te passen. Op deze manier krijg je alsnog de informatie boven die je nodig hebt. Wanneer je hier aan het eind van je veldwerk achter komt, moet je extra gesprekken inplannen om alsnog achter de informatie te komen.

Kwantitatieve datacleaning

Bij kwantitatieve data is het belangrijk om te controleren of je voldoende respons hebt ontvangen. Tevens kijk je of de aantallen representatief zijn voor je onderzoekspopulatie. Doe je een onderzoek in de provincie en je hebt alleen respons van één gemeente, dan is dit niet representatief voor de gehele provincie. Naast representativiteit moet je ook controleren op fouten bij invoeren en registreren. Als je fouten ontdekt in de registratie, kijk of je het kunt corrigeren zonder dat de data wordt veranderd. Als je veel fouten ontdekt, kijk waar de fout ligt en pas de vragenlijst aan en controleer intensiever de data.

Controleer of respondenten minimaal 2/3 van de vragen die ze hebben gekregen hebben ingevuld. Let op: soms krijgen ondervraagden slechts een deel van de vragenlijst te zien. Houd daar rekening mee. Als iemand minder dan 2/3 van de vragen heeft ingevuld, moet deze uit het databestand worden verwijderd.

Bekijk tevens de antwoorden van de respondenten, spreken de antwoorden elkaar tegen? Zijn de vragenlijsten ingevuld om ervan af te zijn, als iemand bijvoorbeeld altijd het eerste antwoord heeft aangekruist. Als er te veel interne tegenspraak is, de vragenlijst te onzorgvuldig ingevuld is of veel antwoorden ontbreken, verwijder dan de gehele vragenlijst. Deze antwoorden zijn niet betrouwbaar.

Zorg dat je een databestand hebt waar de goede data in staat, waarmee je de analyse kunt maken. Hierdoor wordt je analyse makkelijker en representatief.

Steeds vaker wordt er een dashboard gebouwd om data om te zetten in informatie voor analyse. In het dashboard staan de interessante samengevatte gegevens. Van verzamelde data wordt informatie gemaakt. Het dashboard bestaat uit grafieken en tabellen en rapporteert over de indicatoren die van belang zijn. Met behulp van filters kan desgewenst ingezoomd worden. Het dashboard wordt steeds geüpdate als er nieuwe data wordt toegevoegd.

Voor een klant kan het een meerwaarde zijn dat ze zelf kan werken met een databestand en daar de eigen gegevens kan inladen. Dit kan handig zijn in verband met privacy, maar ook als er regelmatig nieuwe gegevens bij komen. De klant kan op deze manier zelf regelmatig analyses maken en de gegevens eruit halen die op dat moment van belang zijn.

Een dashboard is voor veel instanties interessant. Niet alleen voor de culturele sector die bijvoorbeeld werken met een ticketsysteem waar ze data uit kunnen halen. Maar ook de gezondheidszorg die met cliënten werken en daar veel gegevens van moeten bijhouden. Denk ook verkoopgegevens van producten van museumwinkels. Met deze data kan zeker ook een dashboard gebouwd worden. Eigenlijk iedereen die werkt met databestanden en makkelijk de informatie wilt inzien.

Een dashboard wordt gebruikt om de data op een makkelijke en snelle manier te analyseren. Deze analyse kan weer gebruikt worden voor verantwoording en inzichten te geven.

Wil je graag dat we met je meedenken over het inrichten van een dashboard of wat het voor jouw organisatie kan betekenen? Lees het hier.

Waarom?

Hoe?

Het verwijderen van een respondent

Het verwijderen van een antwoord van een respondent

Het vervangen van een antwoord door een andere waarde

Kwalitatieve datacleaning

Kwantitatieve datacleaning

contactgegevens

Nieuwsbrief

Meer informatie

Gratis Producten

over Claudia de Graauw