Steekproef en Populatie > Populatie en steekproeven
12345Populatie en steekproeven

Theorie

Een statistisch onderzoek doorloopt in principe altijd de zogenoemde statistische cyclus.

Data verzamelen van de volledige populatie die je wilt onderzoeken, is vaak erg duur en soms ook onmogelijk. Gelukkig is het meestal wel mogelijk om een aselecte, representatieve steekproef van voldoende omvang uit de populatie te trekken en op basis daarvan betrouwbare aannames te doen over de volledige populatie. Deze tak van wetenschap heet verklarende statistiek.

Een belangrijke stelling die bij verklarende statistiek wordt gebruikt is de centrale limietstelling:
De som van een groot aantal onafhankelijke, mogelijk verschillende, willekeurig verdeelde toevalsvariabelen is bij benadering normaal verdeeld. De toevalsvariabelen zelf hoeven niet normaal verdeeld te zijn.

De kansverdeling van de gemiddelde steekproefuitslagen heet de steekproevenverdeling. Daarbij gaat het over `n` onafhankelijke gelijke toevalsvariabelen `X` . De som `S` van deze gelijke toevalsvariabelen is bij benadering normaal verdeeld met gemiddelde ` bar(S) = n*bar(X)` en standaardafwijking `sigma(S) = sqrt(n)*sigma(X)` . (Denk aan de wortel-n-wet.)

Ook het gemiddelde van `S` is bij benadering normaal verdeeld met een gemiddelde van `bar(S) = bar(X)` en een standaardafwijking van `sigma(bar(S)) = (sigma(X))/sqrt(n)` .

Wel moet `n` voldoende groot zijn. Wat voldoende groot is om de centrale limietstelling te gebruiken, is afhankelijk van de verdeling van de toevalsvariabelen. In veel gevallen is `n ge 30` groot genoeg.

De centrale limietstelling wordt vaak gebruikt bij het doen van steekproeven. Je kunt dan uitspraken doen over een populatie zonder de hele populatie apart te onderzoeken.

Behalve uit het achterhalen van de waarde van een populatiekenmerk bestaat verklarende statistiek ook uit onderzoek naar het verband tussen meerdere populatiekenmerken en naar overeenkomst/verschil tussen meerdere populaties.

verder | terug