Statistiek

cursuscode 200300427
2007-2008, blok 4, april-juni


Nieuws

  1. [2008.07.14] Inmiddels zijn alle uitslagen bekend. Zie ook de onderstaande opmerkingen bij het tentamen en de eindcijfers. Denk a.u.b. ook aan de enquête!
  2. [2008.06.04] Voor gebruikers van de 5e editie van het boek Statistics is er een conversietabel waarin je kan opzoeken hoe de huiswerkvragen corresponderen tussen de 5e en 6e editie.
  3. [2008.05.28] Inmiddels zijn de uitslagen van het eerste werkstuk bekend. Hieronder vind je enkele algemene opmerkingen daarover. Als er geen cijfer vermeld staat, dan was je werkstuk niet correct ingeleverd, of niet goed leesbaar.
  4. Tip: De data behorend bij een aantal huiswerk-opgaven zijn ook te vinden via de book companion site. Voor sommige opgaven kan je de data meteen importeren in SPSS; zie de Handleiding bij het practicum, Hoofdstuk 4.

Praktische informatie

Docent

Hugo Quené
e-mail: hugo punt quene at let uu nl,
adres: Trans 10, kamer 1.22.A,
spreekuur: dinsdag 14:00-15:30 en volgens afspraak

Boeken

We maken gebruik van twee boeken en een web-handleiding:

Rooster

In deze cursus zijn er drie soorten studenten: (1) eerstejaars bachelor-studenten Taalwetenschap, (2) andere bachelor-studenten (diverse talen, TCS, CKI), en (3) pre-master-studenten Logopediewetenschap. De laatste soort studenten heeft alle bijeenkomsten op vrijdag. Alle studenten hebben twee werkcolleges (2u) en een practicum (2u) per week, in timeslot D. Hieronder volgt het rooster voor de verschillende groepen. In het draaiboek hieronder houd ik de volgorde aan voor de bachelor-groepen (1) en (2).

cursusjaar 2007-08, blok 4
woensdag 09:00-10:45 KNG80:113 practicum bachelors, gr.1
woensdag 13:15-15:00 ADD:202 werkcoll 1 bachelors, gr.1 en gr.2 samen
vrijdag 09:00-10:45 Drift23:107 werkcoll 1 premasters, gr.3
vrijdag 13:00-14:45 Trans10:017 werkcoll 2 allen
vrijdag 09:00-10:45 KNG80:012 practicum bachelors, gr.2
vrijdag 11:00-12:45 KNG80:108 practicum premasters, gr.3

De practica op vrijdagen zullen worden begeleid door Maarten Duijndam (student-assistent bij opleiding Taalwetenschap).

Inhoud

Deze cursus heeft tot doel om je de elementaire principes bij te brengen van beschrijvende en toetsende statistiek, en van de rol die deze methoden spelen in het wetenschappelijk onderzoek. Je leert technieken om gegevens te beschrijven, samen te vatten en te presenteren, bv in tabellen, grafieken en statistische kengetallen. Ook de daarvoor vereiste achtergrond komt aan bod: kans en kansrekening, steekproeftheorie, en schatting.
In het wetenschappelijk onderzoek worden gegevens meestal niet alleen beschreven, maar ook gebruikt om een hypothese te toetsen. We gaan in op de algemene principes van zulke toetsing, en je leert de meest gangbare statistische toetsen toe te passen en te interpreteren. Een experiment is een speciale onderzoeksomgeving waarin de relevante variabelen systematisch kunnen variëren; we besteden daarom aandacht aan het ontwerp van een experiment.
In de practica leer je omgaan met SPSS, een computerprogramma voor statistische analyse. Je gebruikt dit pakket om gegevens van jezelf (of van anderen) te beschrijven en te gebruiken voor toetsing.

Onderwijsvorm en toetsing

Deze cursus bestaat uit verschillende componenten. Ten eerste zijn er colleges, op (woensdag en) vrijdag. Voorafgaand aan een college moet je leesstof bestudeerd hebben. Na afloop moet je de bijbehorende individuele huiswerkopdrachten maken. Je antwoorden en oplossingen van het huiswerk moet je in uitgeschreven vorm meenemen naar het volgende college, waar we e.e.a. zullen bespreken.
Ten tweede zijn er practica op vrijdag (en woensdag). De invulling daarvan kan variëren: huiswerk bespreken, statistiek "doen" met SPSS of met R, samen werken aan opdrachten, of het resultaat ervan bespreken.

Voor ieder college (tweemaal per week) moet je rekenen op 2u leeswerk vooraf, 2 contacturen, en 4u huiswerk nadien: 16 uur per week. Voor ieder practicum (eenmaal per week) moet je rekenen op 2u zelfstudie, plus 2 contacturen: 4 uur per week. Je wordt dus geacht 20 uur per week aan deze cursus te besteden.

Verslagen en andere teksten moeten electronisch worden ingeleverd via Ephorus (plagiaat-detectie), uitsluitend in PDF (of ander open-source document formaat). Vraag je docent om opheldering als de opdrachten niet duidelijk zijn!

Tijdens de cursus moet je drie werkstukken inleveren, waarmee je 5 punten kunt verdienen (1+2+2). De cursus wordt afgesloten met een tentamen, waarmee je maximaal 5 punten kunt verdienen. Het eindcijfer bestaat uit de som van deze behaalde punten.


Draaiboek

De data in dit draaiboek zijn die voor de bachelor-groepen.
Let op: Voor sommige bachelor-studenten vinden de practica plaats op de voorafgaande woensdagen.
Voor de premaster-studenten vinden sommige werkcolleges plaats op de volgende vrijdagen.

woensdag 23 april: werkcollege 1

Variabelen; meetniveau. Empirische cyclus. De rol van statistiek in wetenschappelijk onderzoek. Hypothesen; H1 en H0. Eenheden van analyse.

Lezen: Chapter 1.

Vooraf: Verwijzingen:

vrijdag 25 april: practicum 1

Kennismaking met SPSS. Gegevens invoeren en bewaren.

Zorg dat je een account hebt voor de computer-leerzalen bij Letteren. Neem je login-gegevens mee naar het practicum.

Lezen: Handleiding, Hoofdstukken 1, 2 en 3.

Benodigde bestanden: vb01.dat, vb02.dat
Maak een directory voor deze cursus op je persoonlijke schijf (computerleerzalen CIM); bewaar deze bestanden in dat directory (in de meeste browsers: rechts klikken op hyperlink, kies dan Save target as... om het bestand op te slaan).

Liever R dan SPSS?

Voor deze cursus is het niet verplicht om gebruik te maken van SPSS. Een interessant open-source alternatief is het pakket R, beschikbaar via http://www.r-project.org/. R is een stuk krachtiger dan SPSS, en is dan ook lastiger om mee te leren werken. Je kunt meer leren over R in mijn tutorial daarover.

vrijdag 25 april: werkcollege 2

Eenheden van analyse. Steekproef; sampling. Validiteit. Beschrijvende en toetsende statistiek. Veldwerk, corpus-analyse, experiment.

Lezen: Chapter 2.

Huiswerk vooraf:


In week 18 (28 april tot 2 mei) zijn er geen bijeenkomsten van deze cursus, in verband met feestdagen. Je kunt de tijd natuurlijk wel nuttig besteden aan bestudering van de leesstof, en aan je huiswerk.


woensdag 7 mei: werkcollege 3

Datareductie. Presentatie. Histogrammen, tabellen, grafieken. Gemiddelde en spreiding.

Lezen: Chapters 3 en 4.

Huiswerk vooraf:

Aanvulling:

Voor de liefhebbers is er achtergrond-informatie beschikbaar over variantie, o.a. over het verschil tussen populatie-variantie en steekproef-variantie, en over het verschil in berekening (N danwel N-1 in de noemer).

vrijdag 9 mei: practicum 2

Huiswerk vooraf:

Eerste werkstuk:

Algemene opmerkingen achteraf:

vrijdag 9 mei: werkcollege 4

Kans, kansrekening; gezamenlijke en onafhankelijke kansen. Binomiaal-verdeling.

Lezen: Chapter 6.

Huiswerk vooraf:
Verwijzingen:

Aanvullingen:

  1. Over de binomiaal-verdeling kan je meer lezen in het boek van Peck & Devore, Appendix A, p.693 ff.
  2. Hieronder volgt de uitwerking van de binomiaal-verdeling, voor 7 trekkingen met teruglegging, elk met p=0.38, in formule-vorm (zie p.665), en uitgeschreven in een tabel:
    P(x klinkers uit 7 trekkingen) =
    1 × p7 + 7 × p6q+ 21 × p5q2 + 35 × p4q3 + 35 × p3q4 + 21 × p2q5 + 7 × pq6 + 1 × q7 .
    De binomiaal-coëfficienten 1, 7, 21, 35, enz. tref je ook aan in de zgn. Driehoek van Pascal die dit in 1654 heeft bedacht.
aantal
klinkers
mogelijke uitkomsten kans
7 VVVVVVV 1 × (.387) =.001
6 VVVVVVC, VVVVVCV, VVVVCVV, VVVCVVV,
VVCVVVV, VCVVVVVV, CVVVVVV
7 × (.386) (.62) =.013
5 VVVVVCC, VVVVCCV, VVVCCVV, VVCCVVV, VCCVVVV, CCVVVVVV,
VVVVCVC, VVVCVVC, VVCVCVV, VCVCVVV, CVCVVVV,
VVVCVVC, VVCVVCV, VCVVCVV, CVVCVVV,
VVCVVVC, VCVVVCV, CVVVCVV,
VCVVVVC, CVVVVCV,
CVVVVVC
21 × (.385) (.622) =.064
4 VVVVCCC, VVVCCCV, VVCCCVV, VCCCVVV, CCCVVVV,
VVVCCVC, VVCCVCV, VCCVCVV, CCVCVVV,
VVCCVVC, VCCVVCV, CCVVCVV, VCCVVVC, CCVVVCV, CCVVVVC,
VVVCVCC, VVCVCCV, VCVCCVV, CVCCVVV,
VVCVVCC, VCVVCCV, CVVCCVV, VCVVVCC, CVVVCCV, CVVVVCC,
VVCVCVC, VCVCVCV, CVCVCVV, VCVCVVC, CVCVVCV, CVCVVVC,
VCVVCVC, CVVCVCV, CVVCVVC, CVVVCVC
35 × (.384) (.623) =.174
3 CCCCVVV, CCCVVVC, CCVVVCC, CVVVCCC, VVVCCCC,
CCCVVCV, CCVVCVC, CVVCVCC, VVCVCCC,
CCVVCCV, CVVCCVC, VVCCVCC, CVVCCCV, VVCCCVC, VVCCCCV,
CCCVCVV, CCVCVVC, CVCVVCC, VCVVCCC,
CCVCCVV, CVCCVVC, VCCVVCC, CVCCCVV, VCCCVVC, VCCCCVV,
CCVCVCV, CVCVCVC, VCVCVCC, CVCVCCV, VCVCCVC, VCVCCCV,
CVCCVCV, VCCVCVC, VCCVCCV, VCCCVCV
35 × (.383) (.624) =.284
2 CCCCCVV, CCCCVVC, CCCVVCC, CCVVCCC, CVVCCCC, VVCCCCCC,
CCCCVCV, CCCVCVC, CCVCVCC, CVCVCCC, VCVCCCC,
CCCVCCV, CCVCCVC, CVCCVCC, VCCVCCC,
CCVCCCV, CVCCCVC, VCCCVCC,
CVCCCCV, VCCCCVC,
VCCCCCV
21 × (.382) (.625) =.279
1 CCCCCCV, CCCCCVC, CCCCVCC, CCCVCCC,
CCVCCCCC, CVCCCCC, VCCCCCC
7 × (.38) (.626) =.151
0 CCCCCCC 1 × (.627) =.035

maandag 12 mei: deadline werkstuk 1

woensdag 14 mei: werkcollege 5

Let op: Dit werkcollege voor groepen 1 en 2 (woensdag) is verplaatst naar dezelfde tijd van dit werkcollege voor groep 3: vrijdag 16 mei, 09:00 tot 10:45u, op een gewijzigde locatie: Achter De Dom 22, zaal 2.02. Het practicum van vrijdag 16 mei, 9-11u, komt daardoor te vervallen!

Centraal Limiet Theorema. Normale (gaussische) verdeling. Toetsen op normaliteit. Standard error of the mean.

Lezen: Chapters 7 en 8.

Huiswerk vooraf:

vrijdag 16 mei: practicum 3

Huiswerk vooraf:

Grote of kleine standaarddeviatie?

Is de gevonden standaarddeviatie groot of klein? Zit er veel of weinig variantie in de data? Deze vragen zijn niet a priori te beantwoorden; het antwoord hangt af van wat de "gebruikelijke" standaarddeviatie is voor de geobserveerde variabele. Een veel gebruikte maat is de "coefficient of variation" Cv. Dat is een relatieve maat van een steekproef: de standaarddeviatie gedeeld door het gemiddelde. Hieronder zie je die Cvuitgerekend voor enkele gegevens uit een eerdere vragenlijst (voor een steekproef van N=42 studenten). Het gemiddelde en de standaarddeviatie zijn uitgedrukt in dezelfde eenheden als de gemeten variabele (resp. jaar, schoenmaat, cm). De Cv is onafhankelijk van die eenheden, en kan dus vergeleken worden tussen variabelen.

Studiejaar Schoenmaat Lengte (cm)
gemiddelde 1.97 39.93 173.12
s.d. 1.246 3.15 8.37
Cv 0.63 0.08 0.05
IQR 2 4 10

Hieruit zou je kunnen afleiden dat de studenten in deze steekproef relatief meer van elkaar verschillen in studiejaar, dan in schoenmaat of in lichaamslengte.
Aan bovenstaande gegevens zie je trouwens al dat de variabele Studiejaar niet normaal verdeeld is (vergelijk maar met de Empirical Rule, p.169). De spreiding kan je in zo'n geval vaak beter uitdrukken met de interquartile range.
Bereken eens, met behulp van de tabellen in het boek, wat de IQR is van de standaard-normaalverdeling. Is die IQR groter of kleiner dan de standaarddeviatie?

vrijdag 16 mei: werkcollege 6

Schatting. Betrouwbaarheidsinterval.

Lezen: Chapter 9.

Lees ook als achtergrond de extra uitleg over variantie van populatie en van steekproef (bij college 3). Dit sluit aan bij de stof van het boek op p.365.

Huiswerk vooraf:

standaard-normaalverdeling in SPSS

Je kunt de kansverdeling van de standaard-normaalverdeling bepalen met behulp van de tabellen in het boek. Maar het kan ook in SPSS, met de functies CDF.NORMAL(z,mean,sd) (Cumulative Density Function) en IDF.NORMAL(p,mean,sd) (Inverse Density Function), die je aanroept via het commando COMPUTE. De uitvoer van deze functie moet je dan bewaren in een nieuwe tijdelijke variabele (kolom), die voor elke observatie (regel) dezelfde waarde bevat, nl de uitvoer van de aangeroepen functie. Kijk in de practicumhandleiding voor meer informatie over COMPUTE. Na gebruik kan je die tijdelijke variabelen weer weggooien.
COMPUTE temp2 = CDF.NORMAL(1.960,0,1) .
* temp2 bevat nu p=.975 in alle regels .
COMPUTE temp3 = IDF.NORMAL(.975,0,1) .
* temp3 bevat nu z=1.96 in alle regels .

woensdag 21 mei: werkcollege 7

Principes van hypothese-toetsing. Type-I en Type-II fouten. Significantie en power.

Lezen: Chapter 10.

Huiswerk vooraf: Verwijzingen:

vrijdag 23 mei: practicum 4

vrijdag 23 mei: werkcollege 8

Recapitulatie.

Huiswerk:

Activities 9.1 t/m 9.4.
Kijk ook eens naar ongebruikelijk onderzoek, bij http://www.improbable.com !


woensdag 28 mei: werkcollege 9

Presentatie en analyse van bivariate data. Correlatie.

Lezen: Chapter 5.

Huiswerk vooraf: Voer ook Activity 10.2 uit.

vrijdag 30 mei: practicum 5

Tweede werkstuk: Dit werkstuk telt als een deeltoets voor je eindcijfer.
Neem aan dat je werkt als onderzoeker bij een grote school, waar van alle leerlingen het IQ wordt bepaald. Na vele jaren weet je dat het gemiddelde gemeten IQ 98 punten is voor deze leerlingen. Vandaag komt er een ouder van een ADHD-kind op je spreekuur. Zij beweert dat het IQ van ADHD-kinderen eigenlijk hoger is dan gemiddeld, en eist daarom een meer uitdagend programma voor ADHD-ers. Om haar bewering te toetsen selecteer je geheel willekeurig zes ADHD-leerlingen. De IQ-scores van deze N=6 ADHD-ers zijn: 96, 102, 104, 104, 108, 110.
Verricht een statistische toets om de bewering te toetsen. Neem aan dat je een rapport moet schrijven voor het schoolbestuur. Het bestuur snapt niets van statistische toetsing, maar moet wel een gemotiveerde beslissing kunnen nemen over de eis van de ADHD-moeder. Schrijf daarom een compleet verslag, waarin je ook (a) moet uitleggen welke logische redenering ten grondslag ligt aan je statistische toetsing, en (b) moet motiveren waarom je de gekozen statistische toets gebruikt.

Ontleend aan: S.E. Maxwell & H.D. Delaney (2004). Designing Experiments and Analyzing Data: A Model Comparison Perspective. Mahwah, NJ: Lawrence Erlbaum. ISBN 0-8058-3718-3. Numerical example, Table 3.1, p.78.

Uiteraard moet je uitwerking resulteren in een vloeiend betoog waarin eventuele grafieken en tabellen een natuurlijke rol vervullen. Maak dus weer een verhaal met een kop en midden en staart, met inleiding en conclusies. Je mag SPSS of andere programmatuur gebruiken; vermeld dan de gebruikte commando's in een appendix.
Je uitwerking moet je inleveren als een open-source document (dus geen Word) van maximaal 3 pagina's. Volg ook mijn aanwijzingen voor taalgebruik, stijl en opmaak.
Je moet dit document inleveren via Ephorus, een webstek voor plagiaat-detectie. Dat moet via dit formulier. Vul als inlevercode in Statistiek0708 (met hoofdletter). Je werkstuk wordt dan eerst gecontroleerd op plagiaat, en daarna doorgestuurd.
Als je het werkstuk met een medestudent hebt gemaakt, lever dan allebei hetzelfde (identieke) document in, met daarin de namen en studentnummers van beide auteurs.
Deadline is zondag 15 juni 23:59u! Neem bij vragen contact op met de docent.

vrijdag 30 mei: werkcollege 10

Chi2; associatie; goodness-of-fit.

Lezen: Chapter 12.

Huiswerk vooraf:

woensdag 4 juni: college 11

Vergelijking van 2 gemiddelden. De t-toets.

Lezen: Chapter 11.

Huiswerk vooraf:

vrijdag 6 juni: practicum 6

Derde werkstuk: Dit werkstuk telt als een deeltoets voor je eindcijfer.
Maak alle opdrachten en beantwoord alle vragen in hoofdstuk 7 van de Handleiding. Zorg dat je uitwerkingen weer resulteren in een samenhangend, vloeiend betoog waarin eventuele grafieken en tabellen een natuurlijke rol vervullen. Maak dus een verhaal met een kop en midden en staart, met inleiding en conclusies.
Je werkstuk moet weer bestaan uit een document in PDF, Postscript of als MS Web Archive — geen MS Word!
Je moet je document weer inleveren via Ephorus, een webstek voor plagiaat-detectie, via dit formulier. Vul als inlevercode in Statistiek0708 (met hoofdletter). Je werkstuk wordt dan eerst gecontroleerd op plagiaat, en daarna doorgestuurd.
Als je het werkstuk met een medestudent hebt gemaakt, lever dan allebei hetzelfde (identieke) document in, met daarin de namen en studentnummers van beide auteurs.
Deadline is zondag 15 juni 23:59u. Neem bij vragen contact op met de docent.

Benodigde bestanden: television.sps (syntax), television.dat (data).

Lezen:

vrijdag 6 juni: college 12

Vergelijking van meer dan 2 gemiddelden. One-way analysis of variance. Post-hoc vergelijkingen.

Lezen: Chapter 15.

Huiswerk vooraf: Voor opgave 11.36 is een gedetailleerde uitwerking en bespreking beschikbaar.

woensdag 11 juni: geen bijeenkomst

Deze bijeenkomst is vervallen.

vrijdag 13 juni: werkcollege 13

Two-way analysis of variance. Interactie.

Lezen:
Peck & Devore, Ch.15, sections 15.3 t/m 15.5, te vinden via de book companion website.

Huiswerk vooraf:

vrijdag 13 juni: practicum 7

Maak alle opdrachten en beantwoord alle vragen in hoofdstuk 8 van de Handleiding.

Huiswerk vooraf: Benodigd: bestand enq2008.por met resultaten van enquete uit eerste werkcollege, en het bijbehorende codebook.

zondag 15 juni: deadline werkstukken 2 en 3

woensdag 18 juni: geen bijeenkomst

Deze bijeenkomst is vervallen.

vrijdag 20 juni: werkcollege 14

De wetenschappelijke methode. Ethische aspecten van onderzoek. Omgang met proefpersonen en informanten. Fraude en plagiaat.
Tevens vragen-uur.

Lezen:
Nederlandse Gedragscode Wetenschapsbeoefening: Principes van goed wetenschappelijk onderwijs en onderzoek (PDF), door VSNU. Andere verwijzing naar dezelfde Gedragscode (alleen MS Word), met dank aan Sandra van Ham.

Huiswerk vooraf: Verwijzingen:

De laatste bijeenkomst op 20 juni gebruiken we ook als vragen-uurtje, ter voorbereiding op het eindtentamen. Je kan vragen stellen over alle colleges en practica, of over het boek en andere leesstof.

Vooraf:

vrijdag 27 juni: tentamen

Het tentamen vindt plaats op de gewone tijd en locatie.
Het wordt een open-boek-tentamen, waarbij je gebruik mag maken van:
  1. het boek van Peck & Devore, Statistics etc,
  2. het boek van De Vocht, Basishandboek SPSS 12etc,
  3. je aantekeningen,
  4. een (grafische) rekenmachine,
  5. de practicum-handleiding.

Vergeet ook niet om de online cursus-evaluatie in te vullen, via www.let.uu.nl/oce, onder Statistiek 2007-08.
Je kunt het tentamen bekijken. Bij vraag 3 moet je toevoegen: "… en s=1, in beide steekproeven."

Post Mortem

Hieronder volgen enkele opmerkingen over het tentamen.
Kijk de stof nog eens na!

resultaten Omdat het tentamen klaarblijkelijk te groot was voor de gestelde tijd, heb ik alle deelnemers een 0.5 ophoging gegeven bij het tentamencijfer. Je kunt hier alle resultaten vinden.
Het eindresultaat blijkt vooral af te hangen van drie voorspellers (predictoren): 1. het tentamencijfer, 2. het cijfer voor het tweede werkstuk, en 3. of je aan alle toetsen hebt deelgenomen. Studenten met een compleet dossier hebben veel meer slaagkans (33/38) dan zij met een incompleet dossier (3/17). Het bijgaande scattergram illustreert deze verbanden.



Verder lezen

Er zijn letterlijk honderden inleidende boeken over statistiek te vinden. Een goede selectie vindt je bij HyperStat Online (gelieerd aan de webstek van het Rice Virtual Lab in Statistics; zie hieronder). Andere suggesties zijn de volgende:

Verder grazen

Je kunt ook een kijkje nemen bij de cursuspagina's van vorige jaargangen: 2002, 2003, 2004, 2005, 2006.


© 2001-2008 HQ 2008.07.14

Valid HTML 4.01 Strict