Statistisch onderzoek > Variabelen vergelijken
1234Variabelen vergelijken

Uitleg

Bij de gegevens van de Chicago Marathon 2016 heb je voor wat betreft de eindtijden te maken met een continue kwantitatieve variabele.

Een manier om dergelijke variabelen te vergelijken is met behulp van boxplots. Hier zie de boxplots van de eindtijden van de mannen en de vrouwen. Er is enig verschil, maar ook veel overlap van deze boxplots. Om een uitspraak te kunnen doen hanteer je de volgende afspraken:

  • Als de boxen elkaar niet verlappen, dan zeg je "Het verschil is groot".

  • Als de boxen elkaar wel overlappen en minstens één mediaan buiten de box van de andere boxplot ligt, dan zeg je "Het verschil is middelmatig".

  • In alle andere gevallen zeg je "Het verschil is gering".

Bij het vergelijken van de boxplots van de eindtijden van de mannen en de vrouwen moet je op grond daarvan concluderen dat het verschil gering is.

Een andere manier om kwantitatieve variabelen te vergelijken is met behulp van de normale verdeling.
Je gaat dan eerst na of beide variabelen bij benadering normaal zijn verdeeld. In dit geval klopt dat wel ongeveer (vooral als je de erg langzame lopers buiten beschouwing laat). Je zou dus kunnen zeggen:

  • De eindtijden van de mannen zijn normaal verdeeld met `mu(M) ~~ 4,32` en `sigma(M) ~~ 0,87`

  • De eindtijden van de vrouwen zijn normaal verdeeld met `mu(M) ~~ 4,80` en `sigma(M) ~~ 0,89`

Je ziet dat de gemiddelden verschillen, de standaardafwijking nauwelijks. Nu kun je twee normale verdelingen vergelijken door naar hun verschilverdeling te kijken.

Als twee normaal verdeelde variabelen `X` en `Y` hetzelfde gemiddelde, heeft hun verschilverdeling een gemiddelde van `mu = mu(X) - mu(Y) = 0` en een standaardafwijking van `sigma = sqrt((sigma(X))^2 + (sigma(Y))^2)` . Als echter `mu(X) != mu(Y)` dan zal het gemiddelde van de verschilverdeling ook ongelijk aan `0` zijn. Hoe meer `mu` van `0` afwijkt, hoe groter het verschil.

Voor de verschilverdeling van de eindtijden van de mannen en de vrouwen geldt `mu(E) = mu(V) - mu(M) ~~ 0,48` en `sigma(E) ~~ sqrt(0,87^2 + 0,89^2) ~~ 1,3` .

`mu(E)` wijkt af van `mu = 0` , maar niet veel.
Je kunt dat zien aan de kans dat `mu(E)` nog verder van `0` zit: `text(P)(mu(E) ge 0,48 | mu = 0 text( en ) sigma = 1,3) ~~ 0,356` .
In de normale verdeling met `mu = 0` en `sigma = 1,3` is deze overschrijdingskans zo groot dat `mu(E)` naar verhouding dicht bij `0` zit. Meestal spreek je vooraf af hoe groot die overschrijdingskans maximaal mag zijn, dat is vaak `5` %, dus `0,05` . Dit heet het significantieniveau.

Omdat in dit geval de overschrijdingskans veel groter is dan het significantieniveau, zeg je dat het verschil niet significant is.

Opgave 1

Bekijk in de Uitleg 1 hoe de eindtijden van de mannen en de vrouwen van de Chicago Marathon 2016 worden vergeleken met behulp van boxplots.

a

Leg uit waarom hier de conclusie moet worden getrokken dat het verschil gering is.

b

Kies zelf twee andere deelgroepen (bijvoorbeeld twee leeftijdscategorieën) waarvan je de eindtijden wilt vergelijken. Gebruik weer boxplots.

Opgave 2

Bekijk in de Uitleg 1 hoe de eindtijden van de mannen en de vrouwen van de Chicago Marathon 2016 worden vergeleken met behulp van normale verdelingen.

a

Bereken zowel voor eindtijden van de mannen als die van de vrouwen zowel het gemiddelde als de standaarddeviatie.

b

Hoe kun je nagaan of van beide deelgroepen de eindtijden bij benadering normaal zijn verdeeld? Voer dit ook zelf uit.

c

Je maakt een verschilverdeling van de eindtijden van de mannen en de vrouwen. Daarna bereken je een overschrijdingskans. Geef in een schets van die normale verschilverdeling deze overschrijdingskans door arceren aan en bereken hem ook zelf.

d

Licht met behulp van je figuur toe dat als die overschrijdingskans veel kleiner zou zijn geweest, het verschil tussen `mu(E)` en `mu = 0` behoorlijk groter zou zijn geweest.

e

Het significantieniveau is de maximale overschrijdingskans. Als het significantieniveau `0,05` is, hoe groot zou `mu(E)` dan minimaal moeten zijn als het verschil significant is?

f

Kies zelf twee andere deelgroepen (bijvoorbeeld twee leeftijdscategorieën) waarvan je de eindtijden wilt vergelijken. Gebruik nu bijbehorende normale verdelingen.

verder | terug