Bootstrapping: jezelf aan je veters uit het moeras trekken of een statistische methode?

20/11/2020

Anekdote alert! Ken je het verhaal van die man die met zijn paard vastzat in een moeras en zichzelf aan zijn eigen veters omhoog eruit trok? Baron van Munchausen deed het en hij is er bekend door geworden. Uiteraard bleek achteraf dat het om een verzonnen verhaal ging. Jezelf aan je veters omhoog trekken is onmogelijk, laat staan als je vastzit in een moeras! De term ‘bootstrapping’ is hier wel door ontstaan, het betekent namelijk ‘zichzelf verheffen aan zijn bootstraps’, oftewel veters. En laat dat nu net een techniek in de wiskunde zijn waarmee je de (on)zekerheid van een interval of je conclusie bepaalt. Met andere woorden: het toont het wonder aan dat je uit het niks iets kunt bereiken ;-) Meer weten? Lees dan vooral verder…

 

Van plan A naar plan B

Bij CQM werken we heel veel met statistische analyses. We analyseren data en trekken conclusies. Maar, zoals de meesten van ons gewend zijn, kijken we een stap verder. Altijd. Want als je eenmaal een conclusie hebt getrokken, hoe zeker ben je dan van die conclusie? Hoe betrouwbaar is deze? Daarom zeggen we vaak: “als je zo’n numeriek resultaat hebt, moet je daar een interval bij betrekken om de onzekerheid weer te geven.” Om dit interval te bepalen, werkt bij 9 van de 10 statistische modellen plan A (bekende formules) in de wiskunde. Echter, soms is statistiek zo specifiek, dan werkt plan A niet meer, onder andere bij Machine Learning en andere complexe vraagstukken. Bootstrapping kan dan als plan B dienen en net voor die betere conclusies zorgen.

 

Rebooten

Maar wat is het? Dat kunnen we beter uitleggen aan de hand van een aantal voorbeelden. Stel: je werkt voor een marketingbureau en zet een online kortingsactie uit. Je wilt dan weten: heeft zo’n actie nut? Gaat door de korting de verkoop omhoog?

Of net als nu in deze coronatijd en de scholen sluiten of er worden bepaalde maatregelen genomen, dan dalen de besmettingscijfers. Een vraag kan zijn: hoe groot is de daling als gevolg van een maatregel? In die daling zit echter altijd een onzekerheid. Met bootstrapping bepaal je het interval en dus de zekerheid of juist onzekerheid van zo’n conclusie. Het gaat om opnieuw kijken naar je conclusie, net zoals dat je een computer opnieuw opstart. Dat heet niet voor niets rebooten ;-)

 

Meer waarheidsgetrouw

Wanneer je deze onzekerheid in kaart brengt, heb je een meer genuanceerde en waarheidsgetrouwe conclusie. Stel: je bent taartenbakker en je bakt 10x een taart volgens het vertrouwde recept en 10x met een nieuw recept. Je vraagt een rapportcijfer aan iedereen die hem proeft (onder een totaal van 30 personen). Je nieuwe taart krijgt gemiddeld een beter rapportcijfer dus blijf je bij dat recept, dat zal immers beter zijn, dat blijkt uit je testpanel. Echter: je hebt maar onder 30 mensen getest en het verschil is maar 0,8 punt. De nieuwe taart is ook duurder om te produceren. Ga je dan af op je eerste conclusie of pas je bootstrapping toe? Daarmee bepaal je hoe zeker je bent op grond van de steekproef over wat de hele populatie vindt: een betrouwbaarheidsinterval loopt misschien wel van 0,0 via onze “puntschatting” naar 0,8 naar 1,6. In dat geval kan de verbetering dus ook 0,0 kan zijn, oude en nieuwe taart even goed.... 

Je kunt je voorstellen wat voor belangrijke inzichten en uitkomsten dit kan geven bij ingewikkelde vraagstukken. Bootstrapping maakt gebruik van simulatie, wat je in staat stelt onzekerheid te berekenen. Je kunt mensen uit dezelfde steekproef een nieuwe plek geven en alles gebeurt random. Zo krijg je resultaten van meerdere steekproeven tegelijk en krijg je meer data en dus betrouwbaardere bronnen.

 

Machine Learning en bootstrapping

Kortom: bootstrapping is een techniek die je kan helpen anders naar een conclusie te kijken, waardoor je resultaten nog beter worden. Doordat je de betrouwbaarheid en onzekerheid meerekent. Deze methode werkt ook in de wereld van Machine Learning heel goed. Die gaat vaak over het maken van een voorspelmodel, waarbij ook een getal komt rollen dat aangeeft hoe goed de voorspellingen (op nieuwe data) naar verwachting is. Af en toe wil je zelfs op dat getal een onzekerheidsinterval hebben en hier is in principe bootstrapping een fijn plan B om achter de hand te hebben! Soms verricht het zelfs wonderen en lijkt het net alsof je jezelf aan veters het moeras hebt uitgetrokken...

 

Voelt het soms alsof je vastzit in een moeras, omdat je niet verder komt met je conclusies? Geen nood, neem contact met mij op en we passen plan B toe!

 

Wil je op de hoogte blijven van het laatste nieuws van CQM, volg ons op LinkedIn of meld je aan voor onze digitale nieuwsbrief



Fotocredit: Pikrepo.
Drs. Jan Willem Bikker

Drs. Jan Willem Bikker

Principal Consultant