De voorbereiding voor een data analyse in 6 stappen

Een goed begin is het halve werk… En dat geldt zeker voor data analyse! In deze blog leg ik je uit welke stappen je moet ondernemen om goed voorbereid aan je analyse te beginnen.

1.  Welke vraag wil je beantwoorden?

De eerste stap van data analyse is bedenken welke vraag je gaat beantwoorden. Het is belangrijk om hier goed over in gesprek te gaan met de opdrachtgever. Om de vraag helder te krijgen helpt het om vijf keer de ‘waarom-vraag’ te stellen. Door van tevoren de vraag al zo specifiek mogelijk te maken, voorkom je dat je er halverwege de analyse achter komt dat hiermee de vraag van de opdrachtgever eigenlijk niet beantwoord wordt. Bovendien vereenvoudigt een concrete vraag ook het doorlopen van de volgende stappen.

2.  Hoe ga je deze vraag beantwoorden?

Wanneer duidelijk is welke vraag je gaat beantwoorden, ga je bedenken hoe je dit gaat aanpakken. Bij het bepalen van de strategie kan het nuttig zijn om een antwoord te geven op de volgende vragen:

  • Hoe maak je de Key Performance Indicator (KPI) meetbaar?
  • Welke data heb je nodig?
  • Is de data al beschikbaar of zijn er nog acties nodig om de data beschikbaar te stellen?
  • Indien je verschillende datasets gaat gebruiken: hoe kan je deze datasets combineren?
  • Welke tools ga je gebruiken om de dataset te creëren en analyseren?
  • Welke analyse ga je uitvoeren?

3.  Data verzamelen

Heb je bovenstaande punten beantwoord? Mooi! Dan is het tijd om de benodigde data te gaan verzamelen. De data die nodig hebt kan intern al aanwezig en beschikbaar zijn, maar misschien heb je juist wel externe data nodig of wil je je interne data verrijken met externe data. Er zijn verschillende manieren om aan externe data te komen. Zo kun je online veel datasets downloaden, maar kun je data bijvoorbeeld ook verkrijgen via een API of webscraping. Meer over webscraping lezen? Bekijk dan dit artikel.

4.  Data verkennen

Nu je alle benodigde data hebt verzameld, ben je natuurlijk erg benieuwd hoe deze in elkaar steekt. In deze stap ga je de data verkennen en begrijpen en beoordeel je de datakwaliteit. Je bekijkt de verdeeldheid en spreiding van variabelen en identificeert mogelijke missende waardes, outliers of andere ruis. Ook exploreer je in deze stap patronen en relaties tussen variabelen. Hierbij maak je gebruik van tabellen en visualisaties zoals boxplots en scatterplots.

5.  Data opschonen

Tijdens je verkenning zijn je waarschijnlijk wel wat dingen opgevallen waar iets mee moet gebeuren. Een volledig schone dataset die je meteen kan analyseren is namelijk erg uitzonderlijk. In deze stap ga je hier dan ook mee aan de slag. Om te beginnen kun je de variabelen die je niet nodig hebt voor de analyse verwijderen uit de dataset. Vervolgens bepaal je hoe je de missende waardes en outliers aanpakt. De outliers kun je bijvoorbeeld behouden, wijzigen of verwijderen.

6.  Data verder bewerken

Deze laatste stap is optioneel. Mogelijk ben je met je schone dataset al klaar om te gaan analyseren. Het kan echter ook zijn dat de dataset nog wat verder bewerkt moet worden. Voorbeelden van databewerkingen die je in deze stap doet, zijn onder andere:

  • Datatransformatie: Het kan nodig zijn om data te transformeren als met de originele data een aanname voor een analyse geschonden wordt of als deze transformatie het makkelijker maakt om de data te interpreteren.
  • Maskeren: Als er gevoelige data aanwezig is in de dataset dan moet deze gemaskeerd worden.

Nu je deze 6 stappen doorlopen hebt, ben je goed voorbereid om de data daadwerkelijk te gaan analyseren. Succes!

;