Wat voorspellen de data voor Tokio 2020 (in 2021)?

Op vrijdag 23 juli vond in het Olympisch Stadion van Tokio de openingsceremonie van de 32e Olympische Zomerspelen plaats. (Eigenlijk zijn het de 29e Zomerspelen maar het IOC telt de geannuleerde Zomerspelen van 1916, 1940 en 1944 ook mee.) Met een jaar vertraging welteverstaan, want vorig jaar gooide corona roet in het eten. Zoals bij iedere editie kijkt een groot deel van Nederland reikhalzend uit naar de prestaties van Mathieu, Annemiek, Epke, Harrie, Sifan en nog vele anderen. Er wordt gehoopt op een flinke medailleoogst, mede dankzij de uitstekende prestaties van Nederlandse sporters tijdens verschillende Europees en wereldkampioenschappen gedurende de laatste paar jaar. Kunnen we deze hoge verwachtingen echter ook staven aan de hand van een data-analyse en hiermee de toekomstige prestaties van TeamNL voorspellen?

Welke landen presteren goed?

Tijdens iedere Olympische Spelen wordt een medaillespiegel bijgehouden, waarin landen gerangschikt worden aan de hand van het aantal behaalde gouden, zilveren en bronzen medailles. Bij de vorige editie, in Rio de Janeiro in 2016, werd dit klassement aangevoerd door de Verenigde Staten met maar liefst 121 medailles, waarvan 46 gouden. Daarachter eindigden Groot-Brittannië en China op de respectievelijk tweede en derde plaats. Wanneer we kijken naar het aantal gewonnen medailles tijdens alle Zomerspelen bij elkaar (Figuur 1), dan zien we dat de top-5 gevormd wordt door de Verenigde Staten, Rusland, Duitsland, Groot-Brittannië en Frankrijk. Hierbij moet overigens wel worden opgemerkt dat ik Oost- en West-Duistland als hetzelfde, verenigde land behandel en dat de prestaties van de Sovjet Unie onder de noemer van Rusland vallen.

 width=

Nederland staat op deze all-time ranglijst op de 10e plaats. Hierbij moet worden opgemerkt dat wij met name gedurende de laatste 30 jaar aan een gestage opmars bezig zijn, met als hoogtepunt de Olympische Spelen van 2000 in Sydney, waar met een totaal van 25 medailles de achtste plaats in de medaillespiegel bereikt werd. Bij de laatste Spelen in Rio haalde Nederland 19 medailles, wat de 11e plek in de medaillespiegel opleverde.

Waarom presteren landen goed?

Wat bepaalt nu of een land goed presteert op de Olympische Spelen? Natuurlijk gaat het uiteindelijk om de kwaliteit van de sporters die naar de Spelen uitgezonden worden. Dit blijkt echter weer samen te hangen met factoren die op het eerste gezicht helemaal niets te maken hebben met sport. Zoals verschillende onderzoekers al geconcludeerd hebben, bestaat er een positief verband tussen sportprestaties aan de ene kant en de bevolkingsgrootte en het bruto binnenlands product (BBP) per hoofd van de bevolking (capita). Een land met meer inwoners heeft namelijk een grotere talentenvijver om uit te vissen en inwoners van een rijker land hebben meer tijd en geld om aan sportactiviteiten te besteden.

Dit wordt ook mooi zichtbaar uit Figuur 2. Op de horizontale as staat hier de bevolkingsgrootte in 2020 in miljoenen inwoners afgebeeld, terwijl op de verticale as het BBP per capita staat. Beide datadimensies komen uit de Gapminder dataset die je hier kunt vinden. Merk op dat beide assen een logaritmische transformatie hebben ondergaan voor de leesbaarheid. Iedere stip in de figuur is een deelnemer aan de Olympische Spelen en de grootte van de stip vertegenwoordigt het totaal aantal medailles behaald over alle vorige Olympische Zomerspelen. We zien dat de grotere stippen zich met name rechts bovenin bevinden, waar landen een grote bevolking én een hoog inkomen per persoon hebben. Nederland heeft een middelgrote stip en lijkt vooral op het gebied van bevolkingsaantal wat tekort te schieten ten opzichte van de grootmachten.

 width=

Een grondige analyse

Laten we deze analyse wat grondiger aanpakken en, met behulp van bovengenoemde inzichten, een poging wagen om de komende Spelen te voorspellen. Met behulp van de bovengenoemde Gapminder dataset koppel ik de behaalde medailles van ieder land tijdens iedere Olympiade aan het bevolkingsaantal en BBP per capita van het betreffende land in het betreffende jaar. Daarnaast voeg ik voor ieder land het totaal aantal deelnemers toe en bepaal ik of het land de organisator van de betreffende spelen was. Naast dat het aantal atleten dat een land afvaardigt een maat vormt voor het aantal atleten dat überhaupt een medaille kan winnen, kan het ook een indicatie zijn van de plek die sport inneemt in de cultuur van een land: als twee landen hetzelfde bevolkingsaantal en BBP per capita hebben, dan kan aangenomen worden dat het land met de grotere afvaardiging meer sport-minded is en waarschijnlijk beter zal presteren. Ik bepaal het aantal deelnemers aan de hand van deze dataset met alle atleten die ooit aan de Zomerspelen hebben meegedaan. Hierbij tel ik alle sporters die onderdeel uitmaken van een team van hetzelfde land tijdens dezelfde Spelen, zoals alle Amerikaanse basketballers in 1992 of alle Noorse handbalvrouwen in 2016, als één deelnemer, aangezien een teammedaille slechts één maal meetelt voor de medaillespiegel. De gastland-dummy heeft waarde 1 voor gastlanden en 0 voor alle andere landen en wordt meegenomen omdat organiserende landen vaak relatief goed presteren, bijvoorbeeld omdat het nationale Olympische comité extra investeert om op alle sporten competitief te zijn. Omdat de Olympische Spelen met name in de laatste 60 jaar hevig zijn geprofessionaliseerd en geglobaliseerd, beperk ik me tot alle Olympische Zomerspelen vanaf 1960. Dit levert een dataset met 2073 observaties op, waarbij iedere observatie een land op een editie van de Olympische Spelen betreft. Hier zitten ook de landen bij die wel meededen, maar geen medaille pakten.

Vervolgens voer ik een lineaire fixed effects regressie uit waarin ik het aantal totale, gouden, zilveren en bronzen medailles probeer te verklaren aan de hand van de bevolkingsgrootte, het BBP per capita, het aantal deelnemende sporters per land, het jaartal en of een land in het betreffende jaar gastland was. Met de fixed effects in ogenschouw dat er land-specifieke zaken zijn die ik niet observeer, maar die wel voor variatie in het aantal medailles kunnen zorgen.

De uitkomst van deze regressies (Tabel 1) laten zien dat alle factoren behalve de jaartrend significant en positief correleren met het totaal aantal behaalde medailles. Iedere coëfficiënt kan geïnterpreteerd worden als de verandering in het aantal medailles als de onafhankelijke variabele met één eenheid verandert. De schattingen voor bevolkingsaantal en BBP zijn niet enorm: een land met 100 miljoen inwoners meer wint gemiddeld genomen bijna één medaille (100 × 0.09) meer en een toename in het BBP per capita van 20000 euro hangt samen met een toename van ongeveer 1 medaille. Deze kleine resultaten kunnen verklaard worden door het feit dat ik ook het aantal sporters in mijn model meeneem. Aangezien dit waarschijnlijk samenhangt met het bevolkingsaantal en het inkomen, en waarschijnlijk iets belangrijker is, blijft er weinig variatie over wanneer we controleren voor het aantal sporters. Ten slotte valt op dat het gastland over het algemeen bijna 15 medailles meer behaalt dan normaal. Tezamen verklaart dit regressiemodel zo’n 90 procent van de variatie in het totaal aantal behaalde medailles. Voor de afzonderlijke kleuren ligt dit percentage rond de 85.

 width=

Voorspellen aan de hand van het verleden

In de volgende stap voer ik deze modellen de data voor 2020 en verkrijg ik de voorspelde waardes voor het aantal gouden, zilveren en bronzen medailles, alsmede een onder en bovengrens van iedere voorspelling. Omdat ik een lineair model heb geschat, kunnen sommige voorspelde waardes onder de nul uitkomen. Deze vervang ik eerst door een 0. Vervolgens moet ik rekening houden met het feit dat er een vast aantal medailles te vergeven is, namelijk 339 per kleur. Hier negeer ik voor het gemak even dat er in sommige sporten, zoals bij judo, 2 bronzen plakken worden uitgereikt. Om het totaal aantal medailles op (ongeveer) 339 uit te laten komen, vermenigvuldig ik iedere schatting en de bijbehorende onder- en bovengrens met de som van alle schattingen per kleur gedeeld door 339. Ten slotte rond ik deze geschaalde schattingen af op het dichtstbijzijnde gehele getal.

Dit levert de volgende voorspelde medailletabel op voor Tokio 2020 (in 2021). De getallen tussen haakjes geven het onzekerheidsinterval aan; als de Olympische Spelen honderd maal zouden plaatsvinden dan zegt het model dat het aantal medailles in 95 gevallen binnen dit interval zou moeten vallen. De Verenigde Staten eindigen volgens deze voorspelling wederom op de hoogste trede. Met 114 medailles in totaal, waarvan 45 gouden, troeven zij Rusland en China af. Op de vierde plaats komt gastland Japan, terwijl Duitsland de top-5 completeert. Nederland vinden we pas terug op de 11e plaats, met een totaal van 23 medailles en een onzekerheidsinterval van 20 tot 26 medailles. Hoewel dit het record uit Sydney benadert, zal de equipe van Pieter van den Hoogeband hier misschien niet helemaal tevreden mee zijn, temeer omdat het databureau Gracenote maar liefst 48 medailles voor “ons” voorspelde.

Wat is deze voorspelling waard?

Er valt dan ook genoeg aan te merken op dit model. De regressies maken bijvoorbeeld geen onderscheid tussen observaties uit 1960 en observaties uit 2016. Door ook oudere Spelen mee te nemen, verwatert de sterke trend van Nederland gedurende de laatste 30 jaar enigszins. Overigens levert het beperken van de dataset tot Spelen vanaf 1988 eenzelfde eindklassering op voor Nederland, maar ditmaal met 29 medailles. Daarnaast gebruik ik gegevens die niet direct met de kwaliteit van de afgevaardigde sporters samenhangen. Deze simpele en toch elegante aanpak heeft als voordeel dat het redelijk makkelijk is om data te verzamelen, maar een model dat daadwerkelijk gebruik maakt van sportgerelateerde data heeft de potentie om het beter te doen.

Dit is precies wat economen Fabian ten Kate en Elmer Sterken van de Rijksuniversiteit Groningen doen in hun voorspelling: zij gebruiken de resultaten van de meest recente wereldkampioenschappen en komen daarmee op 34 medailles voor Nederland en een zesde plaats in de medaillespiegel. Interessant genoegen voorspellen zij met deze alternatieve aanpak ook dat de Verenigde Staten de meeste medailles pakken en dat China, Rusland en Japan in de top-5 eindigen.

Geen van deze modellen kan echter nauwkeurig voorspellen wat de invloed van de corona-pandemie gaat zijn, waardoor het zeker lijkt dat de moeilijkheidsgraad dit jaar nóg hoger ligt dan voorgaande edities. Welke topper mag straks niet meedoen vanwege een positieve test? Wie heeft er goed kunnen doortrainen en voor wie komen de Spelen net een jaar te laat? Niemand die dit met zekerheid durft te zeggen.

De komende twee weken moeten gaan uitwijzen wat mijn voorspelling waard is, hoe dicht ze bij de realiteit komt en hoe ze zich verhoudt tot de andere voorspellingen. Echter, als ze ook maar een beetje juist is, dan is er genoeg om voor te juichen de komende twee weken!

 width=

;