Correlatie vs. Causatie

Het aantal films met Nicolas Cage is gelinkt met het aantal zelfmoordgevallen volgens de website ‘Spurious correlations’. Klinkt raar he? Toch schijnen deze variabelen met elkaar samen te hangen, zonder dat ze ook maar iets met elkaar te maken hebben. En ook al is er een patroon te zien tussen deze variabelen volgens de data, je kunt daaruit niet concluderen dat er ook een oorzakelijk verband is tussen de twee. En neem nu de uitgaven van de VS aan de wetenschap ten opzichte van het aantal zelfmoordgevallen, deze laten een bijna perfecte samenhang zien. Het een wordt hoogstwaarschijnlijk niet door het ander veroorzaakt, maar de samenhang is mogelijk te verklaren door een derde variabele, bijvoorbeeld de gezondheid van de economie die invloed heeft op beide variabelen.

Causaliteit en Correlatie

De samenhang tussen twee variabelen, zoals de uitgaven van de VS aan de wetenschap en het aantal zelfmoordgevallen, wordt correlatie genoemd. Correlatie vertelt echter niet of er een oorzaak en gevolg relatie tussen de variabelen is, dat is heel duidelijk in dit voorbeeld. Neem nu bijvoorbeeld het aantal ijsjes wat verkocht wordt en het aantal personen met een zonnesteek: dit zal met elkaar correleren, maar is er ook een oorzaak en gevolg relatie? Als deze oorzaak en gevolg relatie er is, wordt dit causaliteit genoemd: de ene variabele heeft invloed op de andere variabele. Zo is het aantal personen met een zonnesteek hoogstwaarschijnlijk een direct gevolg van de sterkte van de zon of het aantal uur dat de zon schijnt op een dag.

Causaliteit en correlatie zijn twee begrippen binnen de statistiek die door de media vaak door elkaar worden gehaald, zij het bewust of onbewust. In wetenschappelijke publicaties worden vaak correlaties beschreven, die vervolgens in de media worden neergezet als causale verbanden om de aandacht van de lezer te trekken. Vooral causale verbanden tussen verschillende voedingsproducten en gezondheid of ziekte zijn erg interessant om te volgen in de media. De ene week zijn wijn en koffie heel gezond volgens de ene krant, en de andere week moet je ze snel de deur uit doen volgens de andere, terwijl de beschreven studies vaak enkel correlaties aantonen in een bepaalde populatie en voor een specifiek ziektebeeld.

Correlatiecoëfficiënt

Correlatie wordt uitgedrukt in de correlatiecoëfficiënt, die zowel positief als negatief kan zijn en tussen de –1 en 1 ligt. Een perfecte positieve correlatie van 1 betekent dat een stijging van de ene variabele samenhangt met stijging van de andere variabele, zoals meer verkochte ijsjes bij hogere temperaturen. Een perfecte negatieve correlatie van -1 betekent dat als de ene variabele stijgt, de andere gecorreleerde variabele daalt, zoals meer verkochte paraplu’s bij lagere temperaturen.  Een correlatiecoëfficiënt van 0 betekent dat er geen samenhang is tussen de twee variabelen. In de praktijk zal een correlatiecoëfficiënt van 0 bijna niet voorkomen. Als er een statistisch verband tussen de twee variabelen wordt gevonden door middel van de correlatiecoëfficiënt, zegt dit niet of er sprake is van oorzaak en gevolg tussen de variabelen.

Correlatie is geen causaliteit

Hoe komt het dat variabelen wel correleren zonder dat er een causaal verband is?

Vaak zijn er een of meerdere andere factoren bij betrokken. Deze verstorende factoren worden ook wel de confounders of de confounding variabelen genoemd. Een confounding variabele is een variabele buiten de twee variabelen die met elkaar correleren. In het voorbeeld van de verkoop van ijsjes en het aantal mensen met een zonnesteek zijn de bekende confounders: de temperatuur en het schijnen van de zon. Deze twee factoren hebben namelijk op dezelfde manier invloed op de verkoop van ijsjes. Op een warme zonnige dag zal de verkoop van ijsjes en het aantal mensen met een zonnesteek stijgen, zonder dat deze twee direct invloed op elkaar hebben. Voor de bekende confounders kan gecorrigeerd worden, maar voor de onbekende confounders niet. In een ideale wetenschappelijke studie wordt er gecontroleerd voor al deze factoren en omstandigheden die invloed kunnen hebben op de resultaten.

Causaties kunnen daarnaast ook verder worden bestudeerd in experimentele context waarbij bijvoorbeeld proefpersonen door middel van randomisatie willekeurig over twee groepen worden verdeeld. De ene groep wordt dan blootgesteld aan de te onderzoeken variabele en de andere niet, waardoor je gemakkelijker een oorzaak-gevolg relatie kan aantonen.

Wellicht dat je na het lezen van dit artikel kritischer zult kijken naar nieuwsberichten die beginnen met: “Onderzoek heeft aangewezen dat..” gevolgd door een beschrijving van een oorzakelijk verband tussen twee variabelen. Vraag je zelf af of een directe oorzaak en gevolg logisch is, of dat er misschien een andere factor het verband verklaart. Natuurlijk is dit vaak lastig omdat het beschreven verband best aannemelijk klinkt. Kijk dus altijd kritisch naar conclusies die worden getrokken in deze berichten.

Verder lezen over correlaties? Kijk dan op de website van ‘Spurious Correlaties’ en lees de volgende artikelen:  

http://www.tylervigen.com/spurious-correlations  

https://www.trouw.nl/nieuws/oorzaak-en-gevolg-is-het-de-haan-die-de-zon-oproept~bc796683/

https://decorrespondent.nl/4133/deze-statistische-fout-wordt-in-bijna-elk-debat-gemaakt-en-zo-pik-je-haar-eruit/60146366962-64c184de

;