Omvang van een steekproef

Het opzetten en uitvoeren van een steekproef zijn belangrijke stappen in veel onderzoeken. Het bepalen van de steekproefomvang is hierbij cruciaal. Tenminste, als je een aselecte representatieve steekproef doet. Aselect betekent dat alle gevallen uit een populatie even veel kans maken om opgenomen te worden in een steekproef. De items worden dan willekeurig opgenomen in een steekproef.

Wanneer je steekproef select is, en dus waarschijnlijk niet-representatief is, is je steekproefomvang ook niet meer belangrijk. De uitkomsten van de steekproef zullen dan sowieso niet-nauwkeurig en niet-betrouwbaar zijn. Vergelijk dit bijvoorbeeld met een peiling voor de landelijke verkiezingen. Stel je vraagt 30.000 mensen waarop ze zullen gaan stemmen. Dat is een hele grote steekproefomvang. Maar als je in de steekproef alleen maar 30.000 mensen in Rijssen gaat vragen waarop ze gaan stemmen, is de steekproef absoluut niet-representatief voor de hele populatie van 11 miljoen stemgerechtigde Nederlanders. De steekproefuitkomsten zijn dan onzuiver oftewel niet-nauwkeurig. De sleutel bij het samenstellen van een goede steekproef is dus willekeur en grootte.

Verplaats je eens in een producent van verpakkingen die 2.000 order per jaar produceert, die heeft uiteraard geen tijd om bij al deze 2.000 orders metingen te gaan doen. Dit zou trouwens ook verspilling van tijd zijn, omdat het helemaal niet hoeft. Hier hebben we namelijk de steekproef voor. Bedenk wel dat een steekproef nooit een 100% betrouwbaar en nauwkeurig resultaat zal opleveren. De steekproef dient wel voldoende groot te zijn om betrouwbare gegevens te krijgen. Daarnaast dient een steekproef een representatieve afspiegeling te zijn van de populatie. Maar hoe bepaal je nou de steekproefomvang?

Wat je moet weten om de omvang van de steekproef te bepalen is o.a. het volgende:

  • Inzicht in de populatie: Wat is de omvang van de populatie en wat is vermoedelijk het gemiddelde en de standaard deviatie van de populatie? Hoe groter de populatie en hoe groter de standaardafwijking, hoe groter je steekproef moet zijn.
  • Type data: Ga je continue data of discrete data verzamelen? Continue data bevat namelijk meer informatie dan discrete data. Daarom moet je bij discrete data een grotere steekproef nemen.
  • Risico: Hoe groot is de kans dat je er “iets naast zit” en wat is acceptabel? Dit wordt uitgedrukt in de betrouwbaarheid en nauwkeurigheid van je steekproef.

Bij veel formules voor het berekenen van de steekproefomvang wordt gevraagd naar de omvang van de populatie, het vermoedelijke gemiddelde en de vermoedelijke standaard deviatie. Eén van deze formules is n = ((Z/ ∆)² * ((p*(1-p))). Hierbij is:

n = steekproefomvang

Z = betrouwbaarheidsniveau

∆ = de foutmarge in %

p = fout ratio

Een steekproef dient voldoende groot te zijn om significante verschillen en verbanden in een onderzoek te kunnen duiden. Je hoeft niet altijd de steekproefomvang te berekenen. Het is natuurlijk zo dat wanneer de steekproefomvang toeneemt, de foutmarge afneemt. De foutmarge van de steekproef wordt ook wel nauwkeurigheid genoemd. Dus, bij een groter steekproef heb je een lager foutmarge, oftewel je uitkomsten zullen nauwkeuriger zijn.

Een vuistregel die je kunt gebruiken is dat bij continue data de steekproef minstens 30 tot 40 moet zijn. Bij discrete data (geheeltallig) moet de steekproefomvang minstens 100 zijn, waarbij er minimaal 5 defecten moeten zijn.

Hoe groter de steekproefomvang, hoe kleiner de foutmarge. Het woord ‘fout’ betekent hier echter niet dat iets verkeerd is, maar dat je enig risico accepteert dat je “er iets naast zit”. Stel je voor dat je een aselecte representatieve steekproef onder 1.000 Nederlanders de volgende uitkomst oplevert.

De blauwe balk is wat de gehele populatie werkelijk zal stemmen, de rode balk wat uit jouw steekproef blijkt. Je zit er telkens “iets naast”. Dat is ook niet erg. Je accepteert een foutmarge van bijvoorbeeld 5%. Stel dat in het bovenstaande bijvoorbeeld in werkelijkheid 60% op partij A stemt. Jij accepteert dan resultaten tussen de 55% en 65%. Maar wat nou als de resultaten veel dichter bij elkaar liggen? Zoals hieronder ⬇️

Als je met zekerheid wilt zeggen welke partij het grootste wordt dan zal je de steekproef moeten vergroten om de foutmarge te verkleinen. Zo wordt je data meer en meer betrouwbaar en nauwkeurig.

Wat moet je dus weten voor de steekproefomvang?

  • De populatie
  • Type data
  • Risico dat je er “iets naast zit”

Je minimaal steekproef is in ieder geval 30 bij continue data en minimaal 100 bij discrete data.

Wil je nou meer weten over steekproefomvang en dataverzameling? Bekijk dan snel onze Lean Six Sigma Green Belt opleiding op Skoledo!