Missende gegevens in een wereld bomvol data

13/02/2017

In mijn werk als kwantitatief adviseur kom ik veel data tegen… heel veel data. We hebben bij CQM zelfs een aparte server om deze grote hoeveelheden gegevens op een goede manier te kunnen verwerken. Er komt steeds meer data beschikbaar doordat systemen digitaliseren, denk aan de OV-chipkaart in plaats van een papieren treinkaartje of een koffiezetapparaat dat aangesloten is op internet (‘Internet of Things’). Maar met alleen véél data, wil nog niet zeggen dat je alles hebt...

Missende data

Ondanks deze grote hoeveelheden data, kan er nog steeds sprake zijn van missende data. Het kan zijn dat bepaalde gegevens niet worden geregistreerd of dat partijen terughoudend zijn in het verstrekken van data. Dit laatste kan bijvoorbeeld komen door de privacy-gevoeligheid van de betreffende data. Maar de oorzaak kan ook zijn dat de data-leverende partij een andere partij is dan de opdrachtgever en de meerwaarde van data-analyse daardoor niet altijd gedeeld wordt.

Random versus selectief

Bij de start van een project beginnen we altijd met het verzamelen en analyseren van de data: hoe zit de data in elkaar, welke periode betreft het, wat betekent elke regel, elk veld, etc. Door deze analyse komt vaak al snel naar voren dat er bepaalde gegevens missen. Dit kan ‘random’ zijn, bijvoorbeeld doordat het systeem af en toe haperde, waardoor gegevens niet altijd goed gelogd worden, of bijvoorbeeld omdat personen vergeten zijn uit te checken met hun OV-chipkaart. Maar het kan ook zo zijn dat een selectieve groep data mist, bijvoorbeeld doordat de logging van bepaalde apparaten mist of als de reisgegevens van bepaalde kaartsoorten niet in de data voorkomen.

Van missend naar aanwezig

Vaak is het belangrijk dat de data volledig is voordat een voorspel- of optimalisatiemodel gemaakt kan worden; de vraag is dan hoe deze missende data aangevuld moet worden. Dit is bij random anders dan bij selectief missende data. In het eerste geval kun je de missende regels aanvullen door gegevens van de niet-missende gegevens te gebruiken; de aanname hierbij is dat de missende regels ‘zich hetzelfde gedragen’ als de regels die niet-missend zijn. Deze aanname is ook toe te passen in het geval van selectief missende data, maar in dat geval is de aanname grover omdat je in feite niets weet over deze missende groep. Een andere oplossing kan dan zijn om extra data te verzamelen, bijvoorbeeld door het uitvoeren van een telling. Ook kun je op een andere manier meer informatie over deze groep achterhalen, zodat je de aannames kunt toetsen.

Onvolledig rapport

Een voorbeeld van de aanvulling van data was een project waarbij bepaalde mensen geïnterviewd werden en zij rapportcijfers moesten geven voor verschillende aspecten. Een deel van de rapportcijfers was helaas niet ingevuld. Het was in dit project belangrijk dat alle aspecten voor alle personen een cijfer hadden. Om dit voor de niet-ingevulde gevallen te bewerkstelligen is het belangrijk om je te realiseren dat het cijfer niet alleen afhankelijk is van het aspect -het ene aspect zal gemiddeld genomen hoger scoren dan het andere aspect-, maar dat mensen ook geneigd zijn om wat hogere of lagere cijfers te geven. Voor de één is een 8 al erg goed terwijl de ander een 10 zou geven. Om beide punten mee te kunnen nemen, werden de missende rapportcijfers opgevuld door het gemiddelde cijfer van het betreffende aspect te corrigeren voor de hoogte van de cijfers die deze persoon gemiddeld genomen geeft. We nemen hierbij aan dat de missende rapportcijfers zowel random (ingevulde cijfers zijn informatief voor de opvulling van missende cijfers) als selectief (elk persoon heeft een andere benadering van cijfers) zijn.

Dus ondanks de grote hoeveelheden beschikbare data, is het altijd nodig om te analyseren of er toch nog data ontbreekt. En als dit het geval is, moet je goed nadenken over of en hoe je deze gegevens gaat aanvullen: dus niet alleen veel data maar ook complete data.

Wilt u meer weten over (beschikbare) data en hoe u deze compleet krijgt? Neem contact op met Pleuni, zij zal u graag helpen!

Andere blogs van CQM lezen? U vindt ze hier.

Of wilt u altijd op de hoogte blijven van het laatste nieuws van CQM? Volg ons dan op LinkedIn of schrijf u in voor de digitale nieuwsbrief (max. 4x per jaar).

Pleuni van Heiningen helpt je graag verder Neem contact op