TMA4245 Statistikk våren 2020

Parallell 1: Forelesninger for MTPROD, MTMART, MTKOM, MTDESIG


Referansegruppe:

  • Anna Hanset, annahanset@gmail.com (MTPROD)
  • Leon Fevang-Gunn, leonfevanggunn@gmail.com (MTPROD)
  • Sander Nesse-Hansen, sanderne@stud.ntnu.no (MTMART)

Digital undervisning

Fra og med mandag 16. mars følger vi videoforelesninger fra TMA4240 Høst 2017.

Hele forelesningsserien finner du i Mediasite, husk at du må logge inn med NTNU brukernavn og passord. Disse videoene er laget av en svært erfaren foreleser i statistikk som har lang erfaring med undervisning av TMA4240/TMA4245 (disse to kursene er identiske). Jeg (Thea B) kommer til å lenke til og beskrive videoene slik at dere ikke trenger å lete dere frem på egenhånd.

Merk at det brukes litt annen notasjon i disse forelesningene. Foreleser bruker f.eks X ∼ n(x; μ, σ) for å betegne det dere kjenner som X ∼ N(μ, σ²)-fordeling.

Ta kontakt med meg eller bruk Piazza-forumet dersom dere har spørsmål til forelesningene.

15. april (eller før påske om du har tid) Kapittel Nøkkelbegreper Videoforelesning Kommentarer
Siste forelesning 11 Enkel lineær regresjon Modellantagelser, fra 31:00 og Residualplott, til 21:50 Det siste vi lærer om lineær regresjon er hvordan vi kan sjekke modellantagelsene vår. Fra tid 31:00 i første video får vi en repetisjon av antagelsene som ligger til grunn for regresjonsmodellen, og vi så spør oss hvordan vi kan sjekke om disse antagelsene stemmer. Vi kan sjekke om det er rimelig å anta en lineær sammenheng mellom x og y ved å lage et kryssplott av observasjonene våre. Antagelsen om at feil-leddene ε er normalfordelte og har samme varians for alle i kan vi sjekke ved å plotte et såkalt residualplott.
1. april Kapittel Nøkkelbegreper Videoforelesning Kommentarer
1.time 11 Enkel lineær regresjon Konfidensintervall for regresjonslinja Tidligere har vi snakket om konfidensintervall for paramtere, og i regresjon dreier det seg hovedsakelig om konfidensintervall for α og stigningstallet β. I denne forelesningen ser vi på konfidensintervall for hele regresjonslinja α + βx. Dette intervallet lager vi for alle mulige verdier av x, altså ikke bare de x-verdiene vi har observert. Merk spesielt fra ca 36:00 til 40:00 da foreleser tegner opp intervallet: intervallet blir bredere der vi har få eller ingen faktiske observasjoner av x.
2.time 11 Enkel lineær regresjon Prediksjonsintervall, til 31:00 Her lærer vi hvordan vi kan predikere en ny y-verdi for gitt verdi av x. Prediksjonsintervallet må ta hensyn til usikkerheten i vårt estimat av regresjonslinja, i tillegg til variabiliteten til en ny observasjon av Y. Dette illustreres visuelt fra ca 21:30.
30. mars Kapittel Nøkkelbegreper Videoforelesning Kommentarer
1.time 11.3 Enkel lineær regresjon Egenskaper til estimatorene i lineær regresjon
Obs! I enkelte nettlesere (bl.a. Chrome) stopper videoen ved 10:41. Prøv en annen nettleser for å se hele videoen.
Forrige uke fant vi uttrykk for estimatorer for de tre ukjente parameterne i regresjonsmodellen; α, β og variansen σ². Dersom vi finner fordelingen til disse estimatorene, så kan vi utlede konfidensintervaller og hypotesetester. Vi starter med å utlede forventning og varians for estimatoren til β, og argumenterer for at estimatoren er normalfordelt. Her må vi holde tunga rett i munn, for det er lange matematiske utledninger! Det mest sentrale er å få med seg at estimatoren er normalfordelt, forventningsrett, og skriv ned variansen. Den samme informasjonen finner du forøvrig på temasidene under "egenskaper til estimatorene"
2.time 11.4 Enkel lineær regresjon Inferens om β Nå som vi har en estimator for β som vi kjenner fordelingen til, så kan vi sette opp et standardisert uttrykk ved å trekke fra forventningsverdien og dele på standardavviket. Standardavviket vil inneholde den ukjente parameteren σ², og (ikke overraskende) vil vi ende opp med en t-fordeling når vi erstatter σ² med en estimator S². Deretter kan vi utlede konfidensintervall for β, og hypotesetester, ved å bruke samme fremgangsmåte som tidligere.
25. mars Kapittel Nøkkelbegreper Videoforelesning Kommentarer
1.time 11.1 Enkel lineær regresjon Introdusjon til lineær regresjon Lineær regresjon er det siste temaet i dette kurset, og lineær regresjon benyttes svært mye i praksis. De grunnleggende ideene som presenteres her, vil du også ha nytte av når du senere i studier er arbeidsliv skal benytte deg av mer kompleks statistisk modellering. Hittil har vi sett på datasett som består av enkle observasjoner, f.eks høyde. Vi har antatt at observasjonene vår kommer fra en normalpopulasjon med ukjent forventningsverdi µ og ukjent varians σ². Vi har lært: å estimere disse ukjente parameterne; å beskrive usikkerheten i estimatet vårt ved hjelp av konfidensintervaller; og å teste hypoteser på hva den ukjente parameterverdien faktisk er. Når vi snakket om høyde så så vi på menn og kvinner hver for seg, for det er åpenbart en forskjell i høydefordelingen til menn og kvinner. Ved hjelp av lineær regresjon kan vi (under visse antagelser) modellere høyde i en og samme modell. Dersom den stokastiske variabelen Y representerer høyde, og vi lar x være en indikator på om en person er mann eller kvinne, så kan vi anta at Y ~ N(α + βx, σ²). Med andre ord, dersom x = 0 (kvinne), så er høyde (Y) normalfordelt med forventningsverdi α og varians σ², men hvis x = 1 (mann) så er høyde (Y) normalfordelt med forventningsverdi α + β og varians σ².
2.time 11.2 Enkel lineær regresjon Sannsynlighetsmaksimeringsestimatorer Når vi har disse parvise observasjonene (x,y), og kan anta en lineær sammenheng mellom de to, samt at Y ~ N(α + βx, σ²) så har vi en sannsynlighetsfordeling for Y, en normalfordeling, som ligner på det vi kjenner fra før. Forskjellen er at forventningsverdien er en funksjon av x: E(Y) = α + βx. Dermed er det tre ukjente parametere her; α, β og variansen σ². Ved å bruke samme teknikker som tidligere kan vi nå utlede sannsynlighetsmaksimeringsestimatorer for de ukjente parameterne, konfidensintervaller, og hypotesetester. I denne forelesningen starter vi med estimatorer.
23. mars Kapittel Nøkkelbegreper Videoforelesning Kommentarer
1.time 10.6 Hypotesetesting Fra 05:45: Hypotesetest, valg av antall observasjoner I hypotesetesting snakker vi om to typer feil: Type 1 feil, dvs forkaste H0 dersom H0 er sann; og Type 2 feil, dvs ikke forkaste H0 dersom H1 er sann. Sannsynligheten for type 1 feil kontrollerer vi ved å sette et visst signifikansnivå α (f.eks α = 0.05). Type 2 feil kan vi ikke kontrollere på samme måte, men for noen (valgte) situasjoner kan vi begrense sannsynligheten for type 2 feil ved å velge et passende antall observasjoner.
2.time 10.9 Hypotesetesting Hypotesetest, test om to andeler Her ser dere et eksempel på en sammenligning av to populasjoner: to binomiske fordelinger med suksess-parametere p1 og p2, og her testes det om p2 > p1 (ensidig hypotesetest). I kap. 10.5 kan du lese om hvordan vi bruker hypotesetesting for å sammenligne forventningsverdiene i to normalpopulasjoner, evt se temasidene og eksempelet om betongkvalitet. Du kan også selv lese kap. 10.10: dette er svært likt det du kjenner fra konfidensintervaller for variansen σ² i normalfordelingen (fra tidligere forelesninger).
18. mars Kapittel Nøkkelbegreper Videoforelesning Kommentarer
1.time 10.3 - 10.4 Hypotesetesting Hypotesetesting, generelt og for forventingsverdi i normalfordeling Hypotesetester for forventningsverdien μ i en normalfordeling blir svært mye brukt i forskning og data-analyser. Dersom vi kjenner variansen σ² kan vi utlede en Z-test. Da bruker vi kritiske verdier fra standard-normalfordelingen til å bestemme om vi skal forkaste nullhypotesen for et bestemt signifikansnivå. Dersom vi ikke kjenner variansen σ² så bruker vi estimatet s² og utleder en T-test. Da bruker vi kritiske verdier fra t-fordelingen.
2.time 10.8 Hypotesetesting Hypotesetest for forventningsverdi i normalfordeling, p-verdi Å bruke p-verdier til å bestemme om man skal forkaste H0 eller ikke er et alternativ til å bruke kritiske verdier fra f.eks normal eller t-fordeling. Vi kommer frem til samme konklusjon, men fordelen med p-verdier er at de er lettere å tolke siden tallverdiene (f.eks p ≤ 0.05) har samme betydning uansett hva slags test som har blitt gjort.
16. mars Kapittel Nøkkelbegreper Videoforelesning Kommentarer
1.time 9.6, 10.1 - 10.2 Prediksjonsintervall og introduksjon til hypotesetesting Video 1: Se fra 31:30 Prediksjonsintervall og Video 2: Tolkning av prediksjonsintervall, innledning til hypotesetesting I kapittel 9 gjenstod det for oss å diskutere prediksjonsintervall. Disse ligner på konfidensintervaller der intensjonen var å beskrive tallverdien til en ukjent parameter. Nå lurer vi på hvilken tallverdi en ny observasjon kommer til å ta. Prediksjonsintervallet regnes ut ved å bruke observasjoner vi allerede har gjort.
2.time 10.1 - 10.2 Hypotesetesting Video 3: Introduksjon til hypotesetesting (forts.) Konseptet hypotesetesting har mange likheter med konfidensintervaller. Vi brukte intervaller til å anslå rimelige verdier for en ukjent parameter - basert på det vi allerede har observert. Du husker kanskje at vi lurte på om svenske elever var bedre i lesing enn Norske? (PISA-undersøkelsen). Nå skal vi formulere slike påstander som hypoteser, og bruke tester til å fastslå om påstanden holder. Siden vi bare observerer et utvalg (ikke hele populasjonen) vil det alltid være noe usikkerhet i konklusjonen vår.

Forelesningslogg (i omvendt kronologisk rekkefølge)

Dato Kapittel Nøkkelbegreper Slides, lenker, etc
12.03 9.8, 9.9 Konfidensintervall for forskjellen mellom to forventningsverdier (uavhengige populasjoner og parvise observasjoner) Eksempler
9.03 9.10, 9.12 Konfidensintervall for en andel p (binomisk) og konfidensintervall for varians i normalfordeling Eksempler
4.03 9.4 Konfidensintervall for forventningsverdi i normalfordeling (kjent og ukjent varians) Eksempel
26.02 9.1 - 9.3, 9.14 Parameterestimering, sannsynlighetsmaksimeringsestimator Eksempel, se også https://shiny.math.ntnu.no/theabj/sme_normal/
24.02 9.1 - 9.3, 9.14 Parameterestimering, sannsynlighetsmaksimeringsestimator Illustrasjoner
19.02 Notat, 8 Ordningsvariabler, utvalgsfordelinger Eksempler. OBS: vi snakket om möbius øving 7, oppgave 3, der vi kan bruke MGF til å finne forventningsverdi. Denne oppgaven kan også løses ved å bruke en transformasjonsformelen for y = x - 8.
17.02 7 MGF, transformasjonsformel Slides
12.02 6.5, 6.7, 7.3 Normaltilnærming til binomisk fordeling, momentgenererende funksjoner Slides
10.02 6.2, 6.3, 6.4, 8.2 Normalfordelingen og sentralgrenseteoremet Eksempler
5.02 5 + 6.6, 6.1 Poisson-prosess, uniform, eksponensial, gamma Eksempler
3.02 5 Binomisk/hypergeometrisk fordeling, Poisson-prosess, Poisson-fordeling Eksempler
29.01 5.2, 5.4 Bernoulli-prosess, binomisk, geometrisk, neg. binomisk fordeling Eksempler, se også https://shiny.math.ntnu.no/theabj/binomisk/
27.01 4.3 Forventning, varians, kovarians, lineærtransformasjoner Eksempler
22.01 4.1, 4.2 Forventning og varians Sannsynlighetsfordelinger
20.01 3.3, 3.4 Kontinuerlige stokastiske variabler, simultanfordeling Oppgave, https://shiny.math.ntnu.no/theabj/sommertemperaturer/
15.01 2.7, 3.1, 3.2, 3.4 Partisjon av utfallsrom, loven om total sanns., diskrete stokastiske variabler Utvalgte slides
13.01 2.6 Telleregler/kombinatorikk, betinget sannsynlighet Bursdager, Eksempler, OBS: 2 feil på tavla
08.01 2.1-2.5 Hendelser og sannsynlighet, telleregler/kombinatorikk, uniform sannsynlighetsmodell Utvalgte slides
06.01 1 Deskriptiv statistikk (gjennomsnitt, median, standardavvik, boksplott, kryssplott, histogram) https://shiny.math.ntnu.no/theabj/deskriptiv_statistikk/
2020-03-30, ingebogh