Hoe helpt intuïtie je om data beter te gebruiken? Maak kennis met Bayes!

17/09/2020

Blog 3 van 3
 

Een tijdje terug deelden we twee blogs over ‘voorspellen in de anderhalvemeter samenleving’. We kregen veel positieve reacties en kondigden aan er een 3-luik van te maken. Hier is hij dan: blog 3. Waarom nu? Een eerste succesvol Webinar over het topic ‘voorspellen in een veranderende situatie’ is een feit! Naar aanleiding van de blogreeks melden zeven geïnteresseerde en enthousiaste deelnemers uit diverse branches zich om in een twee uur durend Webinar te bespreken hoe ze dit kunnen toepassen in hun eigen werkveld. In deze blog gaan we in op de vraag hoe je nu goed met je data kunt blijven voorspellen in veranderende omstandigheden, hoe intuïtie daar een rol bij speelt en nodigen we je uit een volgende keer ook aan te sluiten bij ons Webinar hierover!

 

Veranderende data in welke situatie dan ook

We kunnen er allemaal niet omheen: we leven in een aangepaste samenleving. Covid-19 houdt de hele wereld al een tijdje in zijn greep en het heeft invloed op vele levens. Zo ook op de datawereld. Veel data uit het verleden is namelijk geen goede basis meer voor vandaag de dag en huidige data is niet representatief voor de komende jaren, als Covid-19 weer verdwenen is. Kortom: er is nog steeds vaak veel data beschikbaar, maar is deze bruikbaar? En zo ja, hoe ga je daarmee om in het kader van voorspellen?
 

Het antwoord op die vraag is zeker ja, data blijft relevant en bruikbaar, ook die uit het verleden. Er zijn namelijk ook altijd patronen die niet sterk veranderen, zelfs bij een gebeurtenis als corona met zo’n grote maatschappelijke impact. Zo zou het zo kunnen zijn dat Nederlanders evenveel versproducten eten uit de supermarkt als voor corona. Daarnaast zijn ook patronen die in verhoudingen uitgedrukt kunnen worden vaak veel minder gevoelig voor dergelijke grote veranderingen: de hoeveelheid post die door de week verstuurd wordt ten opzichte van het weekend is waarschijnlijk niet fundamenteel veranderd terwijl de totale hoeveelheid post die we versturen al jaren sterk afneemt.

 

Goed blijven voorspellen: 3 stappen

De vraag is dus niet of de data bruikbaar is, de vraag is “hoe kun je nu zo goed mogelijk blijven voorspellen bij sterk veranderende omstandigheden”?

  1. Maak op dag 1 van de nieuwe situatie een zo goed mogelijk inschatting op basis van domeinkennis: wat verandert veel en wat weinig en hoe zeker ben je hiervan?
     
  2. Maak nieuwe voorspellingen op basis van deze inschattingen en combineer deze met representatieve data uit verleden.
     
  3. Pas voorspellingen voortdurend aan terwijl er nieuwe info binnensijpelt. En onthoud: weinig recente data is vaak representatiever voor de toekomst dan historische. Deze recente data heeft namelijk veel variatie vanwege de beperkte hoeveelheid. Maar misschien is het wel de beste data die je hebt!

 

Voor operationele voorspellingen kun je dus op de dag waarop Rutte de lockdown aankondigt, beginnen met de eerste en tweede stap. Dat betekent dat beslissers, domeinexperts, en Data Scientists direct in een team bij elkaar komen om dit uit te voeren. Want de voorspellingen voor morgen moeten vandaag aangepast worden. Een week later bijvoorbeeld begin je met stap 3: wekelijks een update met de meest recente gegevens om goed bij te kunnen sturen.

 

Begin je pas later met de stappen? Niet getreurd. Het is misschien jammer dat je de voorspelling hebt ‘laten gaan’, maar je kunt op elk moment bij elkaar gaan zitten, de te nemen acties doorlopen en je voorspelling voor de toekomst aanpassen.

 

En hoe doe je dat dan? Enter: Bayes

Om deze stappen te concretiseren kun je Bayesiaanse methoden gebruiken. Deze geven je een framework, waar je data en kennis op een consistente manier kunt combineren en ook kunt blíjven combineren. Zo zal het framework meer relevante data op den duur belangrijker vinden in de voorspelling dan de initiële domeinkennis over de veranderende situatie. 

 

Een belangrijke pijler in deze rekenarij is de regel van Bayes voor het bepalen van voorwaardelijke kansen: wat is de kans dat de data is zoals we zien, gegeven onze voorkennis? Oftewel: hoe speelt onze intuïtie bij het analyseren van het vraagstuk een rol? Wat weten we al, nog voordat we de data hebben gezien over dit topic?

 

Check de video: 99,9% betrouwbare test gaat de fout in

Een toepassing van deze regel zit in de betrouwbaarheid van testen. Momenteel zeer actueel voor alle uitgevoerde coronatesten. Zo zie je in deze video dat als een medische test 99.9% betrouwbaar is, de kans heel groot is dat als je een positieve testuitslag krijgt, je de ziekte toch niet hebt! Dat komt doordat maar een heel klein gedeelte van de mensen die getest wordt de ziekte heeft. Dit fenomeen treedt op bij alle testen die worden uitgevoerd waarbij maar een relatief klein deel van de populatie positief is.
 

In deze video zie je ook dat voorkennis (en intuïtie) over het percentage mensen dat een ziekte heeft wordt gecombineerd met de betrouwbaarheid van de test (data) om tot een goede conclusie te komen.

 

Eindconclusie: hoe nu verder?

De conclusie: door domeinkennis en data te combineren, bijvoorbeeld met Bayesiaanse methoden, kunnen snel na een gebeurtenis als Covid-19 weer zo goed mogelijke voorspellingen gegeneerd worden. Intuïtie speelt hierbij een belangrijke rol en dat vinden wij wiskundigen prachtig! Begrijp ons niet verkeerd: data is onze passie, maar een vraagstuk binnenstebuiten keren en alle mogelijke opties meenemen, dat is waar we het voor doen. Elke dag weer.

 

Wil je meer weten over Bayesiaanse statistiek of ook bij een Webinar over dit topic aansluiten? Neem dan contact op met mij, Marnix, of mijn collega Pleuni op. We nodigen je graag uit! Houd ons tevens in de gaten, want we gaan een videoreeks maken over intuïtie en de Bayesiaanse Statistiek!!

 

Fotocredit: Pixabay. 

 

Drs. Marnix Zoutenbier MTD CIRM

Drs. Marnix Zoutenbier MTD CIRM

Principal Consultant