26/04/2023


De waarde van data neemt toe, blijkt uit onderzoek van het CBS (2021). Ook al blijkt de waarde van data moeilijk vast te stellen. Die is namelijk niet intrinsiek, maar ontstaat pas als je iets met de data doet. Met andere woorden, het – juist – gebruiken van data(stromen) is voorwaarde (en bepalend) voor de waardetoevoeging ervan. Onze klanten hebben vaak een schat aan data. En CQM helpt ze bij het ‘tot waarde maken’ ervan. In deze blog lees je alles over het belang van datakwaliteit, waarom je deze altijd moet checken en hoe je veelgemaakte fouten voorkomt.
 

Het belang van datakwaliteit

Met Data Science kun je data ‘vertalen’ naar bruikbare informatie. Bijvoorbeeld over het huidige proces en hoe je dit zou kunnen verbeteren. De focus hierbij ligt vaak op allerlei Data Science technieken zoals statistiek, forecasting, optimalisatie, simulatie en Machine Learning. Belangrijk is echter om vóór gebruik van de data, maar ook bij de interpretatie van de resultaten, de kwaliteit en de bruikbaarheid van de data te checken.

Bij datakwaliteit speelt de vraag of de data kloppen of dat er misschien fouten in zitten? Zijn de timestamps bijvoorbeeld goed gelogd? Zijn er misschien meerdere versies van (mogelijk verouderde) masterdata in omloop? Zijn er veel missende waardes? Je kunt je voorstellen dat de interpretatie van de data nogal afhankelijk is van de antwoorden op deze vragen. Het is daarom van groot belang om allereerst de datakwaliteit te checken.
Naast datakwaliteit is het voor de bruikbaarheid van de data belangrijk om te weten hoe data tot stand zijn gekomen. Ook dat kan namelijk enorme consequenties hebben voor de conclusies die je eruit kunt trekken. Bij het gebruik van (historische) data voor het maken van Data Science modellen zijn twee veelvoorkomende problemen, namelijk representativiteit en ‘meetfouten’.
 

Representativiteit van data

Wat is de representativiteit van de data voor het doel waarvoor je het wilt gebruiken?

  • Heb je bijvoorbeeld gegevens verzameld tijdens corona, dan hebben die minder voorspellende waarde voor een normale periode. Bijvoorbeeld: hoeveel mensen zaten er in de trein? Of: hoeveel bezoekers van musea en theaters waren er?
  • Of is er ondertussen misschien iets veranderd in het systeem waardoor nu alles heel anders gaat? Ander type logging, ander type ordering…
  • En heb je alleen meetgegevens uit één stal van één boer? Zou het bij andere boeren wellicht heel anders (kunnen) gaan?
     

Meetfouten in data

Zitten er ‘meetfouten’ in de data door de manier waarop deze verzameld zijn?

  • Als je bijvoorbeeld historische salesdata gebruikt voor een forecast; als er geen voorraad was zal de sales een onderschatting zijn van de werkelijke vraag.
  • Of als je om de duur van een processtap te bepalen logdata gebruikt die door gebruikers zelf gelogd zijn, gebeurt dit dan op het juiste moment? Of misschien pas wanneer het de gebruiker uitkomt (nadat deze koffie heeft gehaald en zichzelf als beschikbaar meldt voor de volgende taak)?
  • Ook als je de scandatum van pakketten gebruikt om de aankomst van pakketten te bepalen, ga je de mist in als in werkelijkheid pakketten bij grote drukte pas de volgende dag gescand worden…
     

Hoe check je datakwaliteit en voorkom je veelvoorkomende problemen?

Een aantal tips om te voorkomen dat je de schat aan data verkeerd interpreteert of onjuiste conclusies trekt:

  • Wees scherp op welke aannames je doet en welke conclusies je dus wel en niet kunt trekken.
  • Doe een datacheck! Kunnen de uitkomsten wel kloppen? Combineer data-analyse hiervoor met domeinkennis. Check in de domeinkennis wat de logische uitkomsten zouden moeten zijn en als dit afwijkt achterhaal dan bij domeinexperts wat dit zou kunnen verklaren.
  • Of loop eens mee in de praktijk en kijk met eigen ogen hoe data ‘gemaakt’ worden (zeker wanneer logdata door gebruikers zelf gelogd wordt).
  • Pas - waar mogelijk - het dataverzamelingsproces aan of ga tijdelijk ook op een andere manier data verzamelen. Bijvoorbeeld door met een stopwatch procestijden te meten, als je deze nodig hebt.
     

Datakwaliteit is allesbepalend voor de waarde ervan

De waarde van data ontstaat pas als je iets met de data doet. Om waardevolle informatie uit data te halen en deze bijvoorbeeld te gebruiken als basis voor verbetering van bedrijfsprocessen, is het belangrijk eerst de datakwaliteit te checken en te weten hoe de data tot stand zijn gekomen. Verkeerde interpretatie en conclusies worden makkelijk gemaakt… 


Wil jij ook met je datakwaliteit aan de slag?

Wil jij zeker weten dat jouw organisatie de schat aan waarde uit data haalt? CQM helpt je graag. Neem dan contact op met Lieneke. Volg ons daarnaast op LinkedIn of meld je aan voor onze digitale nieuwsbrief

 

Lieneke van Boxel
Lieneke van Boxel helpt je graag verder Neem contact op