Statistisch onderzoek > De data analyseren
1234De data analyseren

Uitleg

Bij de gegevens van de Chicago Marathon 2016 heb je voor wat betreft de eindtijden te maken met een continue kwantitatieve variabele. Dergelijke variabelen vat je samen met behulp van een frequentietabel met aaneengesloten klassen en een bijbehorend histogram of frequentiepolygoon.

Wil je daarmee twee deelgroepen (zoals mannen en vrouwen, of leeftijdscategorieën) vergelijken, dan gebruik je altijd relatieve frequenties (percentages).

Vaak worden gemiddelde als centrummaat en standaardafwijking als spreidingsmaat gebruikt.

Wil je twee deelgroepen vergelijken, dan kun je hun histogrammen vergelijken. Maar om dan goede uitspraken te doen is dan nogal lastig: je hebt niet alleen met verschillende gemiddeldes te maken, maar ook met verschillende standaardafwijkingen. En hoe interpreteer je dat? Dat zou bijvoorbeeld kunnen als ze zijn te benaderen door normale verdelingen. Hoe je die kunt vergelijken zie je in het volgende onderdeel.

Een manier om kwantitatieve variabelen te vergelijken is met behulp van boxplots.

Een boxplot is een diagram waarbij je de gegevens in vier kwarten verdeeld, je hebt er minimum, eerste kwartiel, mediaan, derde kwartiel en maximum voor nodig.

Wil je daarmee twee deelgroepen (zoals mannen en vrouwen, of leeftijdscategorieën) vergelijken, dan gebruik je voor beide boxplots dezelfde schaalverdeling.

Wil je de samenhang tussen twee kwantitatieve variabelen vergelijken, dan maak je een puntenwolk. Daarover meer in het laatste onderdeel.

Opgave 1

Bekijk in de Uitleg 1 het verhaal van de Chicago Marathon in 2016. Je ziet een histogram van de relatieve frequenties van alle eindtijden met een klassenindeling `2:00 - le 2:30` , `2:30 - le 3:00` , etc. De tijden hebben de indeling u:mm:ss (uren/minuten/seconden).

a

Wat is het verschil tussen een histogram en een staafdiagram?

b

Open het databestand en maak zelf zo'n histogram voor de mannelijke en de vrouwelijke hardlopers afzonderlijk.

c

Waarom is het nu echt noodzakelijk om met relatieve frequenties (procenten) te werken?

Hier zie je het histogram van de eindtijden nog een keer. Er is een normale verdeling in getekend die hetzelfde gemiddelde en dezelfde standaardafwijking heeft.

d

Zijn de eindtijden normaal verdeeld? Hoe zou je dit nauwkeuriger kunnen onderzoeken?

Opgave 2

Bekijk in de Uitleg 1 de boxplots van de eindtijden van de Chicago Marathon 2016.

a

Maak zelf dergelijke boxplots in Excel.

b

Kun je zonder meer zeggen dat de mannen sneller zijn dan de vrouwen?

verder | terug