TMA4245 Statistikk våren 2020
Parallell 1: Forelesninger for MTPROD, MTMART, MTKOM, MTDESIG
- Faglærer: Thea Bjørnland. E-post: thea [dot] bjornland [at] ntnu [dot] no
- Forelesninger:
- Mandag: 8:15 - 10:00 i R7
- Onsdag: 14:15 - 16:00 i R7
Referansegruppe:
- Anna Hanset, annahanset@gmail.com (MTPROD)
- Leon Fevang-Gunn, leonfevanggunn@gmail.com (MTPROD)
- Sander Nesse-Hansen, sanderne@stud.ntnu.no (MTMART)
Digital undervisning
Fra og med mandag 16. mars følger vi videoforelesninger fra TMA4240 Høst 2017.
Hele forelesningsserien finner du i Mediasite, husk at du må logge inn med NTNU brukernavn og passord. Disse videoene er laget av en svært erfaren foreleser i statistikk som har lang erfaring med undervisning av TMA4240/TMA4245 (disse to kursene er identiske). Jeg (Thea B) kommer til å lenke til og beskrive videoene slik at dere ikke trenger å lete dere frem på egenhånd.
Merk at det brukes litt annen notasjon i disse forelesningene. Foreleser bruker f.eks X ∼ n(x; μ, σ) for å betegne det dere kjenner som X ∼ N(μ, σ²)-fordeling.
Ta kontakt med meg eller bruk Piazza-forumet dersom dere har spørsmål til forelesningene.
15. april (eller før påske om du har tid) | Kapittel | Nøkkelbegreper | Videoforelesning | Kommentarer | |
---|---|---|---|---|---|
Siste forelesning | 11 | Enkel lineær regresjon | Modellantagelser, fra 31:00 og Residualplott, til 21:50 | Det siste vi lærer om lineær regresjon er hvordan vi kan sjekke modellantagelsene vår. Fra tid 31:00 i første video får vi en repetisjon av antagelsene som ligger til grunn for regresjonsmodellen, og vi så spør oss hvordan vi kan sjekke om disse antagelsene stemmer. Vi kan sjekke om det er rimelig å anta en lineær sammenheng mellom x og y ved å lage et kryssplott av observasjonene våre. Antagelsen om at feil-leddene ε er normalfordelte og har samme varians for alle i kan vi sjekke ved å plotte et såkalt residualplott. |
1. april | Kapittel | Nøkkelbegreper | Videoforelesning | Kommentarer |
---|---|---|---|---|
1.time | 11 | Enkel lineær regresjon | Konfidensintervall for regresjonslinja | Tidligere har vi snakket om konfidensintervall for paramtere, og i regresjon dreier det seg hovedsakelig om konfidensintervall for α og stigningstallet β. I denne forelesningen ser vi på konfidensintervall for hele regresjonslinja α + βx. Dette intervallet lager vi for alle mulige verdier av x, altså ikke bare de x-verdiene vi har observert. Merk spesielt fra ca 36:00 til 40:00 da foreleser tegner opp intervallet: intervallet blir bredere der vi har få eller ingen faktiske observasjoner av x. |
2.time | 11 | Enkel lineær regresjon | Prediksjonsintervall, til 31:00 | Her lærer vi hvordan vi kan predikere en ny y-verdi for gitt verdi av x. Prediksjonsintervallet må ta hensyn til usikkerheten i vårt estimat av regresjonslinja, i tillegg til variabiliteten til en ny observasjon av Y. Dette illustreres visuelt fra ca 21:30. |
30. mars | Kapittel | Nøkkelbegreper | Videoforelesning | Kommentarer |
---|---|---|---|---|
1.time | 11.3 | Enkel lineær regresjon | Egenskaper til estimatorene i lineær regresjon Obs! I enkelte nettlesere (bl.a. Chrome) stopper videoen ved 10:41. Prøv en annen nettleser for å se hele videoen. | Forrige uke fant vi uttrykk for estimatorer for de tre ukjente parameterne i regresjonsmodellen; α, β og variansen σ². Dersom vi finner fordelingen til disse estimatorene, så kan vi utlede konfidensintervaller og hypotesetester. Vi starter med å utlede forventning og varians for estimatoren til β, og argumenterer for at estimatoren er normalfordelt. Her må vi holde tunga rett i munn, for det er lange matematiske utledninger! Det mest sentrale er å få med seg at estimatoren er normalfordelt, forventningsrett, og skriv ned variansen. Den samme informasjonen finner du forøvrig på temasidene under "egenskaper til estimatorene" |
2.time | 11.4 | Enkel lineær regresjon | Inferens om β | Nå som vi har en estimator for β som vi kjenner fordelingen til, så kan vi sette opp et standardisert uttrykk ved å trekke fra forventningsverdien og dele på standardavviket. Standardavviket vil inneholde den ukjente parameteren σ², og (ikke overraskende) vil vi ende opp med en t-fordeling når vi erstatter σ² med en estimator S². Deretter kan vi utlede konfidensintervall for β, og hypotesetester, ved å bruke samme fremgangsmåte som tidligere. |
25. mars | Kapittel | Nøkkelbegreper | Videoforelesning | Kommentarer |
---|---|---|---|---|
1.time | 11.1 | Enkel lineær regresjon | Introdusjon til lineær regresjon | Lineær regresjon er det siste temaet i dette kurset, og lineær regresjon benyttes svært mye i praksis. De grunnleggende ideene som presenteres her, vil du også ha nytte av når du senere i studier er arbeidsliv skal benytte deg av mer kompleks statistisk modellering. Hittil har vi sett på datasett som består av enkle observasjoner, f.eks høyde. Vi har antatt at observasjonene vår kommer fra en normalpopulasjon med ukjent forventningsverdi µ og ukjent varians σ². Vi har lært: å estimere disse ukjente parameterne; å beskrive usikkerheten i estimatet vårt ved hjelp av konfidensintervaller; og å teste hypoteser på hva den ukjente parameterverdien faktisk er. Når vi snakket om høyde så så vi på menn og kvinner hver for seg, for det er åpenbart en forskjell i høydefordelingen til menn og kvinner. Ved hjelp av lineær regresjon kan vi (under visse antagelser) modellere høyde i en og samme modell. Dersom den stokastiske variabelen Y representerer høyde, og vi lar x være en indikator på om en person er mann eller kvinne, så kan vi anta at Y ~ N(α + βx, σ²). Med andre ord, dersom x = 0 (kvinne), så er høyde (Y) normalfordelt med forventningsverdi α og varians σ², men hvis x = 1 (mann) så er høyde (Y) normalfordelt med forventningsverdi α + β og varians σ². |
2.time | 11.2 | Enkel lineær regresjon | Sannsynlighetsmaksimeringsestimatorer | Når vi har disse parvise observasjonene (x,y), og kan anta en lineær sammenheng mellom de to, samt at Y ~ N(α + βx, σ²) så har vi en sannsynlighetsfordeling for Y, en normalfordeling, som ligner på det vi kjenner fra før. Forskjellen er at forventningsverdien er en funksjon av x: E(Y) = α + βx. Dermed er det tre ukjente parametere her; α, β og variansen σ². Ved å bruke samme teknikker som tidligere kan vi nå utlede sannsynlighetsmaksimeringsestimatorer for de ukjente parameterne, konfidensintervaller, og hypotesetester. I denne forelesningen starter vi med estimatorer. |
23. mars | Kapittel | Nøkkelbegreper | Videoforelesning | Kommentarer |
---|---|---|---|---|
1.time | 10.6 | Hypotesetesting | Fra 05:45: Hypotesetest, valg av antall observasjoner | I hypotesetesting snakker vi om to typer feil: Type 1 feil, dvs forkaste H0 dersom H0 er sann; og Type 2 feil, dvs ikke forkaste H0 dersom H1 er sann. Sannsynligheten for type 1 feil kontrollerer vi ved å sette et visst signifikansnivå α (f.eks α = 0.05). Type 2 feil kan vi ikke kontrollere på samme måte, men for noen (valgte) situasjoner kan vi begrense sannsynligheten for type 2 feil ved å velge et passende antall observasjoner. |
2.time | 10.9 | Hypotesetesting | Hypotesetest, test om to andeler | Her ser dere et eksempel på en sammenligning av to populasjoner: to binomiske fordelinger med suksess-parametere p1 og p2, og her testes det om p2 > p1 (ensidig hypotesetest). I kap. 10.5 kan du lese om hvordan vi bruker hypotesetesting for å sammenligne forventningsverdiene i to normalpopulasjoner, evt se temasidene og eksempelet om betongkvalitet. Du kan også selv lese kap. 10.10: dette er svært likt det du kjenner fra konfidensintervaller for variansen σ² i normalfordelingen (fra tidligere forelesninger). |
18. mars | Kapittel | Nøkkelbegreper | Videoforelesning | Kommentarer |
---|---|---|---|---|
1.time | 10.3 - 10.4 | Hypotesetesting | Hypotesetesting, generelt og for forventingsverdi i normalfordeling | Hypotesetester for forventningsverdien μ i en normalfordeling blir svært mye brukt i forskning og data-analyser. Dersom vi kjenner variansen σ² kan vi utlede en Z-test. Da bruker vi kritiske verdier fra standard-normalfordelingen til å bestemme om vi skal forkaste nullhypotesen for et bestemt signifikansnivå. Dersom vi ikke kjenner variansen σ² så bruker vi estimatet s² og utleder en T-test. Da bruker vi kritiske verdier fra t-fordelingen. |
2.time | 10.8 | Hypotesetesting | Hypotesetest for forventningsverdi i normalfordeling, p-verdi | Å bruke p-verdier til å bestemme om man skal forkaste H0 eller ikke er et alternativ til å bruke kritiske verdier fra f.eks normal eller t-fordeling. Vi kommer frem til samme konklusjon, men fordelen med p-verdier er at de er lettere å tolke siden tallverdiene (f.eks p ≤ 0.05) har samme betydning uansett hva slags test som har blitt gjort. |
16. mars | Kapittel | Nøkkelbegreper | Videoforelesning | Kommentarer |
---|---|---|---|---|
1.time | 9.6, 10.1 - 10.2 | Prediksjonsintervall og introduksjon til hypotesetesting | Video 1: Se fra 31:30 Prediksjonsintervall og Video 2: Tolkning av prediksjonsintervall, innledning til hypotesetesting | I kapittel 9 gjenstod det for oss å diskutere prediksjonsintervall. Disse ligner på konfidensintervaller der intensjonen var å beskrive tallverdien til en ukjent parameter. Nå lurer vi på hvilken tallverdi en ny observasjon kommer til å ta. Prediksjonsintervallet regnes ut ved å bruke observasjoner vi allerede har gjort. |
2.time | 10.1 - 10.2 | Hypotesetesting | Video 3: Introduksjon til hypotesetesting (forts.) | Konseptet hypotesetesting har mange likheter med konfidensintervaller. Vi brukte intervaller til å anslå rimelige verdier for en ukjent parameter - basert på det vi allerede har observert. Du husker kanskje at vi lurte på om svenske elever var bedre i lesing enn Norske? (PISA-undersøkelsen). Nå skal vi formulere slike påstander som hypoteser, og bruke tester til å fastslå om påstanden holder. Siden vi bare observerer et utvalg (ikke hele populasjonen) vil det alltid være noe usikkerhet i konklusjonen vår. |
Forelesningslogg (i omvendt kronologisk rekkefølge)
Dato | Kapittel | Nøkkelbegreper | Slides, lenker, etc |
---|---|---|---|
12.03 | 9.8, 9.9 | Konfidensintervall for forskjellen mellom to forventningsverdier (uavhengige populasjoner og parvise observasjoner) | Eksempler |
9.03 | 9.10, 9.12 | Konfidensintervall for en andel p (binomisk) og konfidensintervall for varians i normalfordeling | Eksempler |
4.03 | 9.4 | Konfidensintervall for forventningsverdi i normalfordeling (kjent og ukjent varians) | Eksempel |
26.02 | 9.1 - 9.3, 9.14 | Parameterestimering, sannsynlighetsmaksimeringsestimator | Eksempel, se også https://shiny.math.ntnu.no/theabj/sme_normal/ |
24.02 | 9.1 - 9.3, 9.14 | Parameterestimering, sannsynlighetsmaksimeringsestimator | Illustrasjoner |
19.02 | Notat, 8 | Ordningsvariabler, utvalgsfordelinger | Eksempler. OBS: vi snakket om möbius øving 7, oppgave 3, der vi kan bruke MGF til å finne forventningsverdi. Denne oppgaven kan også løses ved å bruke en transformasjonsformelen for y = x - 8. |
17.02 | 7 | MGF, transformasjonsformel | Slides |
12.02 | 6.5, 6.7, 7.3 | Normaltilnærming til binomisk fordeling, momentgenererende funksjoner | Slides |
10.02 | 6.2, 6.3, 6.4, 8.2 | Normalfordelingen og sentralgrenseteoremet | Eksempler |
5.02 | 5 + 6.6, 6.1 | Poisson-prosess, uniform, eksponensial, gamma | Eksempler |
3.02 | 5 | Binomisk/hypergeometrisk fordeling, Poisson-prosess, Poisson-fordeling | Eksempler |
29.01 | 5.2, 5.4 | Bernoulli-prosess, binomisk, geometrisk, neg. binomisk fordeling | Eksempler, se også https://shiny.math.ntnu.no/theabj/binomisk/ |
27.01 | 4.3 | Forventning, varians, kovarians, lineærtransformasjoner | Eksempler |
22.01 | 4.1, 4.2 | Forventning og varians | Sannsynlighetsfordelinger |
20.01 | 3.3, 3.4 | Kontinuerlige stokastiske variabler, simultanfordeling | Oppgave, https://shiny.math.ntnu.no/theabj/sommertemperaturer/ |
15.01 | 2.7, 3.1, 3.2, 3.4 | Partisjon av utfallsrom, loven om total sanns., diskrete stokastiske variabler | Utvalgte slides |
13.01 | 2.6 | Telleregler/kombinatorikk, betinget sannsynlighet | Bursdager, Eksempler, OBS: 2 feil på tavla |
08.01 | 2.1-2.5 | Hendelser og sannsynlighet, telleregler/kombinatorikk, uniform sannsynlighetsmodell | Utvalgte slides |
06.01 | 1 | Deskriptiv statistikk (gjennomsnitt, median, standardavvik, boksplott, kryssplott, histogram) | https://shiny.math.ntnu.no/theabj/deskriptiv_statistikk/ |