De ethiek van big data

De hoeveelheid data die verzameld wordt is de afgelopen decennia exponentieel gestegen doordat steeds meer personen en apparaten verbonden zijn met het internet en bedrijven de waarde van data steeds hoger inschatten. Tegenwoordig wordt er daarom gesproken over big data. Een naam die alles zegt. Ethici en data experts benadrukken echter dat bij grote hoeveelheden data ook grote verantwoordelijkheden horen. Wat deze verantwoordelijkheden zijn en hoe men hiermee om zou moeten gaan wordt besproken in deze blog.   

Big data ethics

Big data ethics ofwel de ethiek van big data, refereert naar het systematiseren, verdedigen en aanbevelen van een methode over hoe je verantwoord om zou moeten gaan met grote hoeveelheden data. Deze ethische stroming is in het leven geroepen, omdat het analyseren van big data verschillende ethische vraagstukken oproept. Wij kunnen met de big data van nu complexere analyses en voorspellingen maken dan een paar jaar geleden waar de ethische en wettelijke regelgeving niet mee om kon gaan. De ethici, big data experts en beleidsmakers zijn het nog steeds niet volledig eens over hoe het ethische big data framework eruit moet komen te zien, maar ze zijn het wel eens over een aantal principes.       

Persoonsgegevens 

Een daarvan is dat de privacy van de data en identiteit van consumenten moeten worden gewaarborgd. Privacy betekent niet hetzelfde als geheim blijven, want er mogen volgens de experts wel analyses uitgevoerd worden op de data van consumenten zolang de identiteit van de consumenten maar niet wordt openbaart. De mogelijkheid tot het delen van gevoelige persoonlijke informatie, zoals medische, financiële of plaatsbepalende gegevens moeten daarom echter wel beperkt worden. Mede dankzij dit principe is in Nederland (en de rest van de EU) sinds 2018 de algemene verordening gegevensbescherming (AVG) van kracht, die bedrijven wettelijk verplichten om de gegevens van hun consumenten te beschermen tegen mogelijke privacyschendingen. 

Transparantie

Een tweede is dat bedrijven hun consumenten altijd toegang moeten verlenen tot de data die over hun verzameld is. Ook moeten de consumenten expliciet van te voren toestemming geven aan bedrijven voordat er überhaupt persoonlijke data verzameld mag worden. Als bedrijven van plan zijn de data te verkopen aan een derde, dan moet dit ook van te voren vermeld worden. Mede dankzij dit principe is de cookiebepaling in de telecommunicatiewet in 2018 aangepast, waardoor het wettelijk verplicht is voor bedrijven om consumenten ervan op de hoogte te stellen dat hun gegevens worden verzameld en kunnen worden doorverkocht aan derden. 

Biases

Een derde principe is dat big data en de analyses die hierop gedaan worden nooit de menselijke maat mogen vervangen. Met big data analytics kan menselijk gedrag voorspeld worden en kunnen profielen van mensen worden geschetst. Ethici stellen dat bedrijven goed moeten nadenken over welke voorspellingen en gevolgtrekkingen getrokken mogen worden uit de data. Het kan namelijk zijn dat de data de werkelijkheid niet voldoende weerspiegeld doordat er gebruik is gemaakt van corrupte data of een onzorgvuldig data verzamelproces. Ook moet er worden opgepast voor menselijke biases die door machine learning algoritmes kunnen worden overgenomen. ‘Garbage in, garbage out’ luidt het gezegde. Wanneer mensen onvoldoende rekening houden met hun eigen biases of mogelijke verkeerde onderzoeksopzet, dan kunnen deze fouten door het data analyse process worden uitvergroot en kunnen algoritmes seksistisch of zelfs racistisch worden. 

Een voorbeeld hiervan is een algoritme dat in de US in de ziekenhuizen werd gebruikt om te voorspellen wie voorrang moest krijgen op gespecialiseerde zorg. Het algoritme keek naar de zorgkosten die mensen maakten in de afgelopen jaren om een risicoscore aan ze toe te kennen. Hoe hoger de zorgkosten, hoe hoger de risicoscore, hoe meer voorrang op gespecialiseerde zorg. Uit het algoritme kwam naar voren dat personen die zich identificeren als afro-amerikaans een lagere risicoscore hebben dan blanke amerikanen, omdat ze over het algemeen minder zorgkosten maakten. Hierdoor kregen zij dus ook minder gespecialiseerde zorg toegeschreven. Op het eerste gezicht leek er niks mis te zijn met de dataset en de analyses, maar achteraf bleek dat het algoritme geen rekening hield met het feit dat afro-amerikaanse personen in de realiteit zieker zijn dan blanke personen. De reden waarom de zorgkosten lager uitvielen is volgens de wetenschappers te danken aan dat de afro-amerikaanse bevolking de zorgkosten niet kunnen betalen, minder snel naar zorginstanties gaan bij ziekte of door discriminatie door zorgverleners. Door dit algoritme moesten afro-amerikaanse personen dus zieker zijn dan blanke personen om uiteindelijk dezelfde gespecialiseerde hulp te krijgen. Data wetenschappers berekende dat 17,7% van de patiënten die extra zorg kregen door het algoritme afro-amerikaans waren, terwijl dit eigenlijk 46,5% zou moeten zijn. Dit is een van de vele voorbeelden van hoe biases, racisme en discriminatie kunnen doorvloeien en kunnen worden versterkt door een algoritme. 

Conclusie

De bovenstaande principes zijn waarschijnlijk nog maar het begin van een toekomstige lange lijst, aangezien big data analytics, algoritmes en AI met de tijd steeds geavanceerder en complexer worden. Zoals de experts benadrukken betekent het beheren van grote hoeveelheden data dat je een grote verantwoordelijkheid hebt om hier op een zorgvuldige manier mee om te gaan. Data wetenschappers, data engineers, data analisten en eigenlijk iedereen die te maken heeft met big data zouden zich daarom ook bezig moeten houden met de bijkomende ethische vraagstukken. Zij zitten er namelijk het dichtst bovenop. Naast het puzzelen in de data, zouden zij dus ook moeten nadenken over hoe persoonsgegevens het best beschermd kunnen worden, hoe de data zo transparant mogelijk kan worden gemaakt en over hoe het doorsijpelen van racisme en discriminatie in big data analytics kan worden voorkomen.

;