Een van de grootste uitdagingen die veel organisaties graag aan willen gaan, is het implementeren van een data-gedreven werkwijze. Het liefst op basis van big data. Data analisten kunnen daarbij helpen. Net zoals bij ieder ander project zijn er hordes die oversprongen moeten worden. Een van de hordes omvat de kwaliteit van data.
Een stevig fundament
Om een datagedreven project succesvol te maken, moet er genoeg aandacht worden besteed aan het fundament. Bij het bouwen van een huis moet de fundering goed zijn om het gewicht gecontroleerd over te dragen aan de grond. Het succes van elk project hangt af van de kwaliteit en relevantie van de data waarop het is gebouwd. Hoe meer data er gebruikt gaat worden, hoe steviger het fundament zal moeten zijn. Want het fundament kan sterk genoeg zijn voor een huis, maar bij vooruitgang niet sterk genoeg voor het bouwen van een flat. Data kwaliteit en relevantie kunnen daarom geen ondergeschoven kind in een datagedreven wereld worden.
Data lakes en data warehouses
De kwaliteit en relevantie hangt o.a. samen met de grootte van de organisatie en met het volume en verscheidenheid aan informatie die ze produceert. De opslag van deze informatie wordt een uitdaging voor iedereen. Opties zoals ‘data lakes’ en ‘data warehouses’ worden gebruikt voor het verzamelen en opslaan van enorme hoeveelheden ongestructureerde informatie in het oorspronkelijke formaat. Het probleem is echter dat er fouten optreden wanneer een data lake of data warehouse inconsistente gegevens probeert te combineren uit ongelijksoortige bronnen. Inconsistente en/of gedupliceerde gegevens, logische conflicten en ontbrekende gegevens leiden allemaal tot uitdagingen op het gebied van datakwaliteit. Zo kan het zijn dat werknemers vóór de analyse data uit verschillende bronnen moet verzamelen, lege datavelden moet verwijderen of leegmaken, of data in een consistent formaat moeten transformeren. Dat maakt het ingewikkeld om alles om te zetten in bruikbaar inzicht en vereist veel tijd.
Data kwaliteit
Er zijn verschillende dimensies die data kwaliteit en relevantie beschrijven:
- Compleetheid: Is alles gemeten en is daarmee de dataset nagenoeg compleet?
- Consistentie: Blijft de data gelijk over verschillende datasets?
- Uniekheid: Is er maar een of zijn er meerdere weergaves van een dataset?
- Validiteit: Geeft de data weer wat het zou moeten weergeven?
- Nauwkeurigheid: Weergeeft de data de dataset nauwkeurig?
- Tijdigheid: Is de data bruikbaar over langere tijd?
Je kunt data gebruiken om wolkenkrabber hoogtes te bereiken en de bedrijfsactiviteiten van morgen op te bouwen. Daarbij moet de datapreparatie een prioriteit zijn voor alle bedrijven die de waarde van hun steeds toenemende hoeveelheden data willen ontsluiten. Anders valt het als een kaartenhuis in elkaar.
Wil je ook aan de slag met data science en big data? Bekijk ons traineeship of onze vacatures!