Big Data: Big Fraude
Fraude; een vorm van bedrog waarbij zaken anders voorgesteld worden dan ze zijn, door op papier of digitaal een onjuiste weergave te geven van de werkelijkheid. Ieder moment van de dag probeert ergens iemand wel onrechtmatig winst te maken. Dit hoeft niet per se financieel te zijn. Kijk maar naar één van de beroemdste fraudeurs uit de 20e eeuw; Frank Abagnale. Hij had acht verschillende vervalste identiteiten waar hij zijn voordeel uit haalde. Zo deed hij zich voor als een Pan Am piloot, vloog hij gratis mee met meer dan 250 verschillende vluchten als passagier en kon al zijn onkosten factureren bij de vliegmaatschappij. Prima geregeld als je het mij vraagt. Bij financiële fraude denk je vrijwel gelijk aan Jordan “The Wolf of Wall Street” Belfort. Hij zwindelde meer dan 200 miljoen dollar door middel van een penny-stock callcenter. De verhalen van deze fraudeurs zijn beide, uiteraard aangedikt, door Hollywood vertaald naar het grote scherm met toevalligerwijs beide keren Leonardo DiCaprio in de hoofdrol (als dat wel zijn echte naam is..)
Cybercrime
Of de verheerlijking van het leven van deze mannen heeft geleid tot een toename aan fraudeurs weet ik niet. Wel blijkt uit cijfers van PwC dat financiële misdaad blijft stijgen en dat meer dan een derde van alle organisaties geplaagd wordt door financiële fraude. Naast de traditionele vorm van fraude brengt de digitalisering van de wereld ook enorm veel digitale bedreigingen met zich mee. De sterkst groeiende economische misdrijfvorm is dan ook cybercrime. Het kan gezien worden als een soort van digitale paradox. Organisaties kunnen dankzij de digitale vernieuwingen alles steeds beter, sneller en efficiënter. Echter worden al deze positieve ontwikkelingen meteen onder druk gezet door de enorme hoeveelheid aan cybercrime, die juist gebruik maakt van de digitalisering.
Gelukkig worden niet alleen de bad guys steeds beter in het plegen van fraude. Ook op het gebied van fraude detectie en preventie zijn de ontwikkelingen over de afgelopen jaren enorm verbeterd.
Online Superman
Fraudeherkenning is één van de meest interessante en nuttige applicaties van data science. Je spoort letterlijk criminelen op. Een soort van digitale superheld! Tegenwoordig worden allerlei ingewikkelde methodes uit de statistiek, machine learning en data mining toegepast om te voorspellen wie een grote kans heeft om in de toekomst fraude te plegen. Geavanceerde systemen worden hier steeds beter in. Maar het blijft een riskant en lastig proces, voornamelijk door de mogelijk enorm scheve verhouding in de aanwezige data. Om te voorspellen welke klant eigenlijk keiharde crimineel is moet je model frauderend gedrag kunnen herkennen. Hiervoor moet je dus ook fraudeurs in het verleden hebben opgespoord. Stel dat 99,9% van je klantenbestand onschuldige mensen zijn, ten opzichte van 0,1% bajesklanten (1 op de duizend zou niet eens een gekke verhouding zijn), dan gaat je model 99,9% van de tijd klanten classificeren als niet-criminelen. Wat niet gek is, want dan heeft je model de meeste kans om gelijk te hebben.
Precision vs Recall
Als je een model bouwt om fraudeurs op te sporen wil je natuurlijk dat de voorspellingen kloppen, zodat je niet opeens een volledig onschuldige klant in de bajes dondert. In de werkelijkheid zijn modellen helaas niet foutloos, en krijgen vaak een precision of een recall classificering. Met precision wordt omschreven hoe, inderdaad, precies je model is. Hoeveel van de klanten zijn correct geïdentificeerd als fraudeur? Recall specificeert wat de kans is dat alle fraudeurs gevonden zijn. Deze begrippen hebben vaak een inverse relatie met elkaar – hoe groter de precision, hoe kleiner de recall. Vaag? Vaag. Stel je hebt een dataset van 100 klanten, waarvan In werkelijkheid 10 klanten fraude hebben gepleegd. Vervolgens zegt je model dat alle 100 klanten fraude hebben gepleegd. Dan zal je recall op 100% liggen, je hebt alle criminelen succesvol geïdentificeerd. Helaas zal je precision dan op slechts 10% liggen, aangezien de overige 90 onterecht beschuldigd zijn. De ideale balans hiertussen is volledig afhankelijk van het doel dat je met het model wil bereiken.
Fraudedetectie
Neem bijvoorbeeld een alarmsysteem. Het is extreem belangrijk dat deze een zo groot mogelijke recall heeft – aangezien één doorgelaten inbraak al genoeg kan zijn om extreme gevolgen te hebben. Het is dan niet erg dat het alarm regelmatig loos alarm slaat (lage precision). Bij fraude detectie is dit niet zo zwart-wit. Je wilt een hoge recall (zoveel mogelijk bad guys vinden), aangezien ook één fraudeur grote gevolgen kan hebben, maar je wilt ook niet dat je er vaak naast zit – dat gaan de onschuldige klanten, die dus beschuldigd worden van fraude, niet zo prettig vinden gok ik.
Het toepassen van data science om digitale superheld te spelen kan enorm nuttig en succesvol zijn, maar brengt ook veel onduidelijkheid en onzekerheid met zich mee. Het is essentieel dat de uiteindelijke mogelijke fraudeurs nog eens goed onder de loep worden genomen op traditionele manieren door een team van werknemers. Ik raad iedereen aan om zeker de toepassingen van data science bij fraude detectie te omarmen, maar voorlopig nog niet afgezonderd van menselijke controle.
Ben jij na het lezen van deze blog enthousiast geworden en wil jij ook starten als trainee Business Analytics & Data Science? Solliciteer op een van de openstaande vacatures of schrijf je dan nu in!