Steekproefgrootte maar dan anders: tolerantie-intervallen maken het verschil

10/06/2020

Ontwerpers leggen hun nieuwe producten vaak voor aan consumenten. Dit om een goed beeld te krijgen van de consumentenindruk. “Wij willen minstens 80 proefpersonen in onze steekproef anders zijn wij niet representatief bezig!”, is een opmerking die ik dan vaak hoor. Ik heb mij altijd afgevraagd waarom men dat roept. Gisteren in de auto kreeg ik een helder idee. Wat men graag wil is dat ‘alle’ variatie die er tussen consumenten zit, ook in de steekproef terecht komt denk ik dan. Wel even geverifieerd en dat lijkt een goede weergave van wat men eigenlijk zou willen. Nu is de vraag: kunnen wij daaraan rekenen? Nou, volgens mij geven tolerantie-intervallen daar een antwoord op. Nu wordt het wiskundiger…
 

Iets over tolerantie-intervallen

Want hoe kunnen we nu bepalen of het klopt dat je minstens 80 consumenten nodig hebt voor representativiteit? Laten wij even net doen of consumenten maar op een enkel relevant kenmerk verschillen van elkaar. Als we de tolerantie-intervallen erbij pakken, zeggen die zoiets als: “Zoek twee grenzen L en U zodanig dat met grote kans (α) een grote fractie (β) van de populatie wordt ingesloten”. Wacht even, is dit niet precies wat wij nodig hebben?

De vraag is hoe zulke grenzen te vinden zijn als wij α en β vastleggen. Tolerantie-intervallen komen in twee smaken: parametrisch en verdelingsvrij. Laten wij ons nu eens richten op de verdelingsvrije tolerantie-intervallen. Dat betekent dat de vorm van de verdeling van het relevante kenmerk er niet toe doet. Stel, we bekijken het tolerantie-interval dat verkregen wordt door als ondergrens L het minimum en als bovengrens U het maximum van de steekproef te nemen. Als de steekproef groter wordt verwachten wij dat L kleiner wordt en U groter en dat dus een grotere fractie van de populatie ligt tussen L en U, precies wat wij nodig hebben. Wat wij nu willen is dat tussen deze twee grenzen een groot genoeg deel van de populatie zal zitten want dan hebben wij ‘nagenoeg’ alle variatie in de populatie ook in de steekproef. Party time dus! De vraag is nu hoe groot de steekproef moet zijn om met grote kans (95%) minstens, zeg, 95% van de populatie te hebben zitten. Als wij uitgaan van het minimum en maximum van een steekproef als grenzen dan geldt de volgende relatie tussen α, β en steekproefgrootte n,

100 waarnemingen is representatief

Als α en β gegeven zijn kan n hieruit opgelost worden. Hieronder een plaatje als α=95%. Daaruit volgt dat voor β=0.95 er ruwweg n=100 waarnemingen nodig zijn om met grote kans de variatie in de populatie ook nagenoeg in de steekpoef te hebben. Dus: met die uitspraak van 80 proefpersonen zitten we aardig in de richting! Op naar het uitvoeren van vele steekproeven…

Wil je op de hoogte blijven van het laatste nieuws van CQM, volg ons op LinkedIn of meld je aan voor onze digitale nieuwsbrief.
 

Fotocredit: Pixabay. 

 

Ruud van Lieshout MSc

Ruud van Lieshout MSc

Principal Consultant