Twee methoden voor de prijs van één

Machine Learning (ML) vs. klassieke statistiek: een hot topic binnen ons vakgebied. Ook bij CQM stellen we vaak de vraag wat beter is, of ze elkaar aanvullen of juist niet, of ML wel echt zo goed werkt, waarom je überhaupt nog standaard statistiek zou gebruiken als er ML is, enzovoorts. Het is een lastige vergelijking. We krijgen ook niet vaak de kans om in één project technieken van beide soorten toe te passen. ProRail gaf ons die mogelijkheid wel: zij waren geïnteresseerd in de voorspelbaarheid van de betrouwbaarheid van reistijden. Een hele mond vol! We leggen zo meteen uit wat het betekent… Wij namen de uitdaging in ieder geval aan en gaven antwoord op deze vraag door er zowel met een Machine Learning bril als met een statistische blik naar te kijken. Maar wat is nu de uitkomst, wat is beter en waar helpen we ProRail uiteindelijk verder mee? Je leest het in deze blog!

Reistijdbetrouwbaarheid

Stel: je wilt met de trein naar Amsterdam en je checkt in de reisplanner hoe laat die gaat. Een reis wordt dan als ‘betrouwbaar’ bestempeld als de trein daadwerkelijke op dat tijdstip vertrekt. Vertrekt hij later, dan is de reis ‘onbetrouwbaar’. Dat is nog redelijk ongecompliceerd. Maar als je dit traject over een langere periode analyseert, kun je ook iets zeggen over hoe vaak de trein uitvalt, of het moment op de dag invloed heeft op de betrouwbaarheid. Of: op een langere reistijd (van bijvoorbeeld 1,5 uur) kan meer misgaan dan in een reis van 10 minuten. Dus wellicht is de reisduur wel van invloed op de betrouwbaarheid. We kijken in ons onderzoek naar de verschillende eigenschappen van een reis om te bepalen of deze van invloed zijn op de betrouwbaarheid. Samen met ProRail hebben we gekeken naar welke ‘x’jes’ van invloed kunnen zijn. Met het uiteindelijke doel om een voorspelmodel te maken om de reistijdbetrouwbaarheid van toekomstige dienstregelingen te voorspellen.

Voorspellen met statistisch model

We kunnen met de simpele statistische methode lineaire regressie een voorspelmodel maken voor reistijdbetrouwbaarheid. Deze benadering kent een aantal voordelen. Zo is dit een gedragen methode die inzichtelijk en transparant is. Het is duidelijk wat de bijdrage is van elk x-je in het model en het is voor alle betrokkenen navolgbaar (te maken) hoe de methode tot deze effecten komt. Daarnaast kunnen de betrokkenen ook zelf makkelijk rekenen met de uitkomsten van het model, bijvoorbeeld om in de toekomst nieuwe voorspellingen te maken. Dit type model kent ook nadelen, zo is het model gevoelig voor uitschieters in de data en veronderstelt het dat de data normaal verdeeld is.

Voorspellen met Machine Learning

Machine Learning wordt door sommigen gezien als het tegenovergestelde van klassieke statistiek. Zo gaat ML er, in tegenstelling tot statistische methoden, niet vanuit dat de onderliggende data een bepaalde distributie kent. ML-methoden baseren alle modelkeuzen- en stappen op de data die het te zien krijgt en de instellingen die wij meegeven. Die onafhankelijkheid is van de ene kant mooi. Het betekent echter ook: foute input = foute output. En dat kan veel effect hebben op je eindresultaat. Daarbij komt nog dat je nauwelijks idee hebt hoe de output tot stand komt. Je kunt niet stap voor stap zien en narekenen hoe tot het resultaat gekomen is. De gemaakte keuzes zijn niet transparant. Dit is overigens niet erg als je geïnteresseerd bent in prognoses maken, maar wel als je, zoals in dit project, ook geïnteresseerd bent in de effecten van verschillende x-jes. Meer over deze black box verschijnselen, lees je in de blog van mijn collega Frans.

Voordelen Machine Learning en klassieke statistiek

In dit reistijdbetrouwbaarheidsproject was het mogelijk om Machine Learning toe te passen omdat er heel veel (miljoenen) verschillende (anonieme) datapunten beschikbaar waren. We hebben de Random Forest methode gebruikt. Deze is vaak beter in voorspellen dan statistische modellen zoals lineaire regressie, ook in dit specifieke geval voor ProRail. Maar ook al is de uitkomst beter, als je niet kunt verantwoorden hoe je daartoe gekomen bent, creëer je minder draagvlak. Zo krijg je met een Random Forest model bijvoorbeeld geen antwoord op de vraag wat het effect van het aantal overstappen in relatie tot de reisduur op de betrouwbaarheid van deze reis is. Lineaire regressie kan dit effect wel geven.

De beste keuze voor ProRail

In dit project hebben we de ML-techniek Random Forest vergeleken met de klassieke statistiek-methode lineaire regressie. Het was super interessant om op twee verschillende manieren naar het reistijdbetrouwbaarheids-vraagstuk van ProRail te kijken. Uiteindelijk hebben we samen gekozen voor de oplossing die voortkwam uit de klassieke statistiek. Waarom? Ook al was de performance van het Random Forest model beter, het lineaire regressiemodel was transparanter en dat gaf de doorslag voor ProRail. En ProRail is zo enthousiast dat ze de oplossing overdragen aan NS, zodat ook zij met de voorspelling voor reistijdbetrouwbaarheid aan de slag kunnen. Hoe tof is dat?!

Ben jij ook benieuwd wat voor jouw vraagstuk de beste oplossing is; een Machine Learning of een klassieke statistiek aanpak? Neem contact op met Pleuni, zij helpt je de beste keuze te maken!

Wil je daarnaast op de hoogte blijven van het laatste nieuws van CQM, volg ons op LinkedIn of meld je aan voor onze digitale nieuwsbrief.

_{Fotocredit: Beeldbank NS.}

Machine Learning vs. klassieke statistiek bij ProRail

Twee methoden voor de prijs van één

Reistijdbetrouwbaarheid

Voorspellen met statistisch model

Voorspellen met Machine Learning

Voordelen Machine Learning en klassieke statistiek

De beste keuze voor ProRail

Gerelateerd nieuws

Quant 79 - Van inzicht naar impact

Datagedreven innovatie in de praktijk

Sociale innovatie vraagt meer dan data alleen