Data verzamelen en analyseren werd eeuwen geleden al gedaan door de oude beschavingen. Met turven en rekenkunde werd bijvoorbeeld bijgehouden hoeveel voorraad men had en met simpele statistiek en wiskunde kon men architectonische meesterwerken bouwen. Door de tijd heen is de manier van data verzamelen en analyseren echter sterk veranderd. De datasets en analyses waarmee gewerkt wordt zijn alsmaar groter en complexer geworden. Tegenwoordig zijn de datasets van veel bedrijven zo groot dat simpele analyses en statistiek geen effectief werk meer kunnen verrichten. Om alsnog datagedreven beslissingen te kunnen nemen met behulp van de ‘big data’ die zij verzameld hebben, hebben bedrijven vaak datawetenschappers en -analisten in dienst die het hedendaagse data-analyse proces eigen hebben gemaakt. Deze data professionals werken vaak niet allemaal volgens een en dezelfde methode, maar toch doorlopen zij vaak 6 dezelfde stappen om van een onderzoeksvraag naar een datagedreven beslissing te komen.
Stap 1: Het vraagstuk
De eerste stap die wordt doorlopen is het uiteen zetten van het vraagstuk. In deze stap worden effectieve vragen gesteld en wordt het probleem nauwkeurig gedefinieerd. De analisten bepalen hoe het project eruit moet komen te zien en wat een succesvol resultaat betekent. Om dit te kunnen bewerkstelligen overleggen zij met de stakeholders en managers, die geïnteresseerd zijn in de uitkomst van de analyse, hoe zij dit moeten vormgeven. Vragen die bijvoorbeeld gesteld worden in deze stap zijn:
- Wat is het doel van het onderzoek? Wat is concreet de onderzoeksvraag? En wat zijn volgens het data science team, de stakeholders en de managers de hypotheses?
- Is er al eerder data verzameld om een soortgelijke analyse uit te voeren? Zo ja, hoe krijg je toegang tot de historische data?
- Wat zou voor de stakeholders en managers een optimale uitkomst van de analyse zijn?
Stap 2: De voorbereiding
De tweede stap is de voorbereiding. Een data analyse begint namelijk altijd met een goede voorbereiding. In deze stap wordt de data zorgvuldig verzameld, opgeslagen en wordt bepaald welke data er uiteindelijk gebruikt gaat worden voor de analyses. Het is belangrijk dat ervoor wordt gezorgd dat de data objectief en unbiased is. Meer over biases en hoe je die kan vermijden vind je in deze blog. Daarnaast wordt in deze stap bepaald hoe de tijdlijn van de analyses er ongeveer uit gaat komen te zien en wanneer verwacht wordt dat de uitkomsten van deze analyses gepresenteerd kunnen worden. Vragen die in deze stap gesteld worden zijn o.a.
- Moet er nieuwe data worden verzameld of is er al genoeg data beschikbaar om de algehele analyse te kunnen uitvoeren? Als er al data beschikbaar is, hoe krijg je toegang tot die historische data?
- Met welke data formats, types en structures worden er gewerkt?
- Hoe kan de data op een zo effectief mogelijke manier georganiseerd en beschermd worden?
Stap 3: De dataverwerking
Dan komen we aan bij de derde stap, de dataverwerking. In deze stap wordt data gecreëerd, getest en opgeschoond. Allereerst worden er datasets gecreëerd op basis van de verzamelde data. Als er al historische data beschikbaar is wordt deze opgehaald uit databases. Daarna wordt de data getest op validiteit en betrouwbaarheid. Er moet bijvoorbeeld worden getest of de sample size en statistische power wel groot genoeg zijn. Dit is belangrijk om überhaupt iets te kunnen concluderen op basis van de data. Na het testen van de data moet de ruwe data worden opgeschoond en worden klaargemaakt voor analyse. Zo moet de data onder andere geanonimiseerd worden en moet dubbele, verouderde, incomplete, incorrecte en inconsistente data verwijdert worden.
Stap 4: De analyse
De vierde stap is het uitvoeren van de daadwerkelijke analyse. Afhankelijk van de analyses die moeten worden uitgevoerd worden er verschillende tools gebruikt om de data te transformeren, te sorteren en te filteren. Daarna wordt in de data door middel van een analyse naar patronen gezocht. Uit deze analyses worden vervolgens conclusies getrokken en worden er voorspellingen gedaan. Ook als er niks uit de analyses komt is het belangrijk om dit te vermelden. Je moet niet alleen op zoek gaan naar antwoorden die je verwacht.
Stap 5: Het delen
Dan komen we aan bij de vijfde stap waarin de uitkomsten van de analyses geïnterpreteerd en gevisualiseerd worden. De visualisaties worden met de stakeholders gedeeld waarbij het mogelijk is dat zij niet zo thuis zijn in het data analyse process. Het is dus van belang dat deze visualisaties makkelijk te begrijpen zijn en alleen relevante data weergeven. Je moet hier uit gaan van de ‘5 second rule of data viz’ . Een data visualisatie moet voor iedereen binnen 5 seconden begrepen kunnen worden. Als de data visualisatie te complex is, komt het verhaal wat je ermee wilt vertellen vaak niet goed over. Daarom wordt in deze stap ‘data storytelling’ toegepast om van de complexe data analyses een simpel verhaal te maken die voor iedereen te begrijpen is.
Stap 6: De datagedreven besluitvorming
De zesde, en tevens laatste, stap is de uiteindelijke datagedreven besluitvorming. In deze stap worden de ingewonnen inzichten toegepast in de praktijk. Hopelijk lossen de inzichten bedrijfsproblemen op en kan er met overleg van de managers naar gehandeld worden. Vaak wordt er door middel van een interdisciplinair overleg bepaald hoe veranderingen geïmplementeerd moeten worden en welke acties concreet ondernomen moeten worden om de gewonnen inzichten toe te passen.
Het stappenplan in de praktijk
Dit stappenplan wordt door veel datawetenschappers doorlopen om van een onderzoeksvraag en/of bedrijfsprobleem naar een data gedreven oplossing te komen. In het traineeship Data Analytics van Breinstein leer je onder andere hoe je deze 6 stappen moet toepassen in de praktijk. Op de trainings- en opleidingsdagen wordt veel aandacht besteed aan wat de meerwaarde is van datagedreven werken en hoe je jezelf kunt ontwikkelen tot een data professional die zich de wereld van de data eigen heeft gemaakt. Zo leer je data te testen, op te schonen, te analyseren, te visualiseren en te presenteren met verschillende programma’s zoals, R, Python, SQL en R Shiny. Alles wat je nodig hebt om deze stappen te kunnen doorlopen dus! Naast het uitvoeren van een goede data-analyse, worden de Young Professionals in het traineeship Data Analytics ook getraind in statistiek, textmining, machine learning, data mining, predictive modelling en meer! Naast data-analist, ontwikkel je jezelf binnen het traineeship dus ook tot BI-specialist, data engineer en data scientist. Heb jij affiniteit met data en zou je deze data skills ook willen leren? Meld je aan voor het traineeship!