Je leest het bijna iedere dag wel op het web of in de krant: de groei van data heeft een vogelvlucht genomen. Dit wordt voornamelijk veroorzaakt door de toenemende digitalisering van de maatschappij. Bijna iedereen heeft een smartphone, we communiceren veel over het web en zelfs in onze vrije tijd zijn we online wanneer we Netflix kijken of (mobiele-) games spelen. Hierdoor wordt enorm veel data gegenereerd – de totale omvang van data op het web wordt tegenwoordig gemeten in zettabytes – waardoor data ook wel de nieuwe olie wordt genoemd.
Het hebben van data an sich levert je echter niet direct iets op. Pas wanneer er inzichten verworven kunnen worden op basis van beschikbare data, wordt deze daadwerkelijk ook waardevol. Het is daarom ook niet verrassend dat de vraag naar data scientists en analisten sterk toeneemt, want veel organisaties beschikken over veel data waar ze nog weinig tot geen gebruik van maken. Maar, wat komt er allemaal bij kijken wanneer je een data scientist wilt aannemen? Aangezien ik bij de gemeente Rotterdam veel bezig ben geweest met deze vraag en het realiseren van de randvoorwaarden zodat ik als data scientist aan de slag kan, zal ik vanuit mijn ervaring verder op deze vraag ingaan.
Gegevensmanagement
Zoals de naam van de functie al doet vermoeden, zullen data scientists voor hun werkzaamheden altijd data nodig hebben. Het is daarom verstandig om eerst te kijken hoe het er met de data huishouding binnen de organisatie voor staat. Hierbij kun je denken aan het inventariseren van de volgende zaken:
- Over welke data beschikt de organisatie en uit welke bronsystemen worden deze ontsloten
- Is de beschikbare data gedefinieerd en is deze informatie, ook wel metadata genoemd, geborgd en beschikbaar
- Wat is de kwaliteit van de data en, indien deze onvoldoende is, wat kan hieraan gedaan worden
- Waar wordt data beschikbaar gesteld binnen de organisatie
Deze zaken vallen allemaal onder de noemer gegevensmanagement en hoewel een data scientist ook werkzaamheden binnen dit kader kan verrichten, scheelt het veel werk (en kosten) als dit binnen de organisatie al wordt opgepakt. Zo wordt er binnen de gemeente Rotterdam gewerkt vanuit een concern data warehouse, waarin data centraal wordt verzameld en vervolgens gekoppeld en beschikbaar gesteld kan worden. Hierdoor kan ik op één centrale plek data ophalen en hoef ik dus niet zelf langs allerlei afdelingen voor losse Excel-bestanden. Bovendien wordt de data ook nog eens automatisch geüpdatet!
De gemeente is daarentegen minder ver met het inventariseren van de beschikbare data en metadata, wat vertraging oplevert omdat dit binnen mijn project opgepakt moet worden. Het inregelen van gegevensmanagement is daarom geen absolute randvoorwaarde, maar het kan een data science project zeker een vliegende start geven!
Infrastructuur en tools
Om met de data te kunnen werken, zal een data scientist tools gebruiken die mogelijk nieuw zijn voor je organisatie. Denk hierbij aan de programmeertalen R en Python, bijbehorende ontwikkelomgevingen zoals RStudio en Spyder en, wanneer je organisatie met big data werkt, softwareframeworks als Apache Hadoop of Spark. Daarnaast zijn voor de werkzaamheden van een data scientist ook voldoende werkgeheugen en processorkracht nodig, mogelijk zelfs in clustervorm. Aangezien deze zaken niet altijd realiseerbaar zijn in de standaard werkomgeving, is het daarom belangrijk om na te denken over de infrastructuur en tools welke een data scientist nodig heeft én of deze binnen je organisatie passen. Zo werkt de gemeente Rotterdam bijvoorbeeld met Citrix, een werkomgeving die niet direct geschikt is voor data science. Daarom wordt er gewerkt aan het realiseren van een analytics platform, waar data scientists alle ruimte en capaciteit zullen hebben voor hun werkzaamheden. In de tussentijd worden de meeste data science projecten uitgevoerd op aparte servers of private clouds.
Wat een data scientist precies allemaal nodig zal hebben binnen jouw organisatie, zowel qua infrastructuur als tools, hangt natuurlijk af van wat je van deze persoon verwacht. Ga daarom het gesprek hierover aan wanneer je een data scientist wilt aannemen, zodat toekomstige (onaangename) verassingen voorkomen kunnen worden.
Privacy en informatiebeveiliging
Werkt jouw organisatie met persoonsgegevens? Dan is de Wet Bescherming Persoonsgegevens en binnenkort de Algemene Verordening Gegevensbescherming van toepassing op de verzameling en verwerking van die gegevens. Wanneer het idee is om deze gegevens in een data science project te gebruiken, zal ook dan conformiteit aan de wettelijke regelgeving gerealiseerd moeten worden. Daarnaast gelden ook wettelijke vereisten in het kader van informatiebeveiliging, welke ingeregeld moeten worden voordat een data scientist met persoonsgegevens aan de slag mag.
Binnen mijn project werken we aan de hand van een Privacy Impact Assessment, een BIV-classificatie (Beveiliging, Integriteit, Vertrouwelijkheid) en indien nodig een aanvullende risicoanalyse, op basis waarvan maatregelen worden bepaald om conformiteit aan de wetgeving te realiseren. Hiervoor is (juridische) ondersteuning vanuit de organisatie erg belangrijk, want ik ben als data scientist natuurlijk geen juridisch expert. Daarnaast kunnen er veel zaken in het kader van privacy en informatiebeveiliging aangepakt worden voordat er überhaupt een data scientist wordt aangenomen, dus sla hiermee je slag!
The innovator’s dilemma
Wanneer je een data scientist aanneemt, zal hij of zij proberen om op basis van data een product of dienst te verbeteren. Wees je er echter wel van bewust dat zulke innovaties (grote) invloed kunnen hebben op de invulling van werkzaamheden binnen jouw organisatie. Worden werknemers getroffen in hun werk door een data science innovatie? Neem hen dan mee in het project! Vaak is het namelijk het geval dat wanneer werknemers actief worden betrokken en hun input kunnen leveren, de toekomstige draagkracht van het project wordt vergroot. Je hebt tenslotte niets aan een heel accuraat voorspelmodel dat niet gedragen wordt binnen de organisatie. Om die reden staat het binnen mijn project centraal om werknemers, managers en directeuren actief te betrekken bij de ontwikkeling van het voorspelmodel.
Er kan dus nogal wat bij komen kijken wanneer je een data scientist wilt aannemen, maar is de organisatie hier goed op voorbereid op basis van de bovenstaande zaken, dan komt het ongetwijfeld goed met de data science afdeling!