Temaside for TMA4240/TMA4245 Statistikk
Begreper, definisjoner og tolkninger
Hypotesetesting
Dette har vi lært til nå:
Vi har studert egenskaper i en (eller flere) populasjon(er) ved å samle inn data fra tilfeldige utvalg fra poulasjonen(e). Egenskaper i populasjoner karakteriseres gjerne av parametere i disse populasjonene. Vi har under parameterestimering sett på hvordan vi kan finne et godt anslag for en ukjent parameter i en populasjon ved å definere en estimator, som er en kjent funksjon av data fra utvalget. Vi har videre sett på godhet av estimatorer (forventningsretthet og lav varians), og laget konfidensintervaller, som er intervaller der vi har god tiltro til at den underliggende (sanne) verdien til parameteren i populasjonen(e) ligger.
Nå skal vi bruke det vi har lært om parameter- og intervallestimering til å teste ut en påstand. Påstanden oversetter vi til to hypoteser (null- og alternativ hypotese), og vi lager en regel for om vi skal forkaste eller ikke forkaste nullhypotesen. Regelen er avhengig av hvor stor vi er villig til å godta at sannsynlighet for "å forkaste nullhypotesen når den egentlig er sann" kan være.
Introduksjonsvideo: Hypotesetesting (15:12, Mette Langaas)
Hva skal vi gjøre nå? Hvordan vi utfører en hypotesetest kan presenteres i følgende steg:
- Definere to konkurrerende hypoteser: nullhypotesen og den alternative hypotesen.
- Velge det vi kaller et signifikansnivå - som er sannsynligheten vi godtar for å gjøre en Type I feil - som er å forkaste nullhypotesen når den er korrekt. For å komme frem til en forkastningsregel må man bestemme hvor alvorlig det er å gjøre en type-I-feil. En type-I-feil er å forkaste nullhypotesene når den er riktig. Den som skal utføre hypotesetesten må selv velge øvre grense som sannsynligheten for å begå en type-I-feil ikke skal overskride. Et veldig populært valg er \( \alpha=0.05 \), men det er inget magisk med dette valget. Det er også mulige med andre verdier, og andre populære valg er \( \alpha=0.01\) og \( \alpha=0.1\).
- Finne en testobservator vi enten bruker til å lage et forkastningsområde for testen, eller som danner grunnlaget for å regne ut en \(p\)-verdi for testen.
- Bestemme et forkastningsområde og/eller regne ut en \(p\)-verdi for testen.
- Bruke innsamlede data og bestemme om nullhypotesen skal forkastes eller ikke.
For å forklare disse begrepene vil vi bruke tre vandreeksempler: andelen studenter som røker daglig, systolisk blodtrykk til kvinner med en spesiell sykdom, og kvalitet av betong (trykkfasthet) fra to ulike produsenter.
Til sist skal vi også studere styrken til en test (sannsynligheten for å forkaste nullhypotesen når nullhypotesen er gal), og regne på hvor mange observasjoner vi trenger for å oppnå en viss styrke.
Sentrale begreper
Trykk på det grå feltet for mer informasjon om temaet.
En statistisk hypotese er et utsagn om egenskaper til en eller flere populasjoner. Vi definerer to hypoteser:
- Nullhypotese \(H_0\): Hypotesen vi vil undersøke om vi har grunnlag fra data til å forkaste.
- Alternativ hypotese \(H_1\): Reflekterer spørsmålet vi stiller eller påstanden vi kommer med.
Hypotesetest-situasjonen kan enten være ensidig eller tosidig.
Røyking: Det er kjent at 13% av Norges befolkning røyker daglig (tall fra SSB 2015). Vi ønsker å teste om det er slik at færre enn 13% av studenter ved NTNU røyker. La \( p\) være andelen av NTNU-studenter som røyker daglig. Da vil et naturlig valg av null- og alternativ hypotese være: \[ H_0: p=0.13 \text{ mot } H_1: p<0.13\] Dette er en ensidig test. Det hadde også vært mulig å velge \(H_0: p\ge 0.13\), og dette ville ledet til samme svar som \(H_0: p=0.13\).
Systolisk blodtrykk: Vi vil teste om gjennomsnittlig systolisk blodtrykk hos en populasjon av kvinner med en spesiell sykdom er høyere enn 120mmHg, og lar \(\mu\) angi gjennomsnittlig systolisk blodtrykk i denne populasjonen. Da vil et naturlig valg av null- og alternativ hypotese være: \[ H_0: \mu=120 \text{ mot } H_1: \mu>120 \] Dette er en ensidig test. Det hadde også vært mulig å velge \(H_0: \mu\le 120\), og dette ville ledet til samme svar som \(H_0: \mu=120\).
Betongkvalitet: Vi vil sammenligne kvaliteten av betong som produseres hos to produsenter, og lar \(\mu_1\) være gjennomsnittlig trykkfasthet for betong av gitt type fra produsent 1 og \(\mu_2\) tilsvarende for produsent 2. Da vil et naturlig valg av null- og alternativ hypotese være: \[ H_0: \mu_1=\mu_2 \text{ mot } H_1: \mu_1 \neq \mu_2\] som ekvivalent kan skrives \[ H_0: \mu_1-\mu_2=0 \text{ mot } H_1: \mu_1-\mu_2 \neq 0\] Dette er en tosidig test.
Merk: De to hypotesene omhandler parametere i en eller flere populasjoner. Vi tester ikke hypoteser basert på observatorer fra utvalg, men vi kommer til å bruke utvalg til å lage regler for når nullhypotesen skal forkastes.
Relevante videoer: Alle videoer med hypotesetest inneholder dette steget.
Ut fra null- og alternativ hypotese skal vi lage en regel for om vi skal forkaste eller ikke forkaste nullhypotesen.
- Hvis vi velger å forkaste nullhypotesen mener vi at vi har funnet tilstrekkelig grunn til å tro at nullhypotesen kan være gal, og vi velger heller å tro på den alternative hypotesen.
- Hvis vi velger å ikke forkaste nullhypotesen mener vi at det vi har observert gjerne kan skje når nullhypotesen er riktig. Vi kan dermed ikke si om nullhypotesen er gal eller sann, men vi mener ikke at vi har funnet tilstrekkelig grunnlag for å forkaste nullhypotesen. Vi har ikke bevist at nullhypotesen er sann.
Det betyr at vi håndterer ikke null- og alternativ hypotese på samme måte.
Innen hypotesetesting definerer vi to mulige feil vi kan gjøre:
- Type I-feil: forkaste \(H_0\) når \(H_0\) er korrekt/sann/riktig.
- Type II-feil: ikke forkaste \(H_0\) når \(H_0\) er gal/usann.
Det er ganske vanlig å presentere disse to gale valgene sammen med de to korrekte valgene vi kan ta, basert på om sannheten er at nullhypotesen er sann eller usann (kolonnene i tabellen).
Avgjørelse | \(H_0\) er sann | \( H_0\) er usann |
---|---|---|
Ikke forkast \(H_0\) | Korrekt | Type-II-feil |
Forkast \( H_0 \) | Type-I-feil | Korrekt |
Eksemplene ble innført under "To hypoteser".
Røyking:
\[ H_0: p=0.13 \text{ mot } H_1: p<0.13\]
- Hvis det er sant at andelen NTNU-studenter som røyker daglig er 13% og vi forkaster nullhypotesen så konkluderer vi med at det er færre enn 13% av NTNU-studenter som røyker daglig. Da begår vi en Type-I-feil: vi sier at det er færre enn 13% NTNU-studenter som røyker daglig når det er sant at andelen er som ellers i befolkningen, nemlig 13%.
- Hvis det er sant at andelen NTNU-studenter som røyker er mindre enn 13% og kanskje den er 12%, men vi forkaster ikke nullhypotesen, da begår vi en Type-II-feil: vi unnlater å forkaste nullhypotesen når den er gal.
Systolisk blodtrykk: \[ H_0: \mu=120 \text{ mot } H_1: \mu>120 \]
- Hvis det er slik at det systoliske blodtrykket blant de syke kvinnene er 120mmHg, og så sier vi at vi forkaster nullhypotesen så antar vi at blodtrykket er høyere enn 120mmHg når det er 120mmHg. Dette er en type-I-feil.
- Men, hvis det er slik at blodtrykket i den syke populasjonen virkelig er forhøyet, kanskje 122 mmHg, og vi ikke forkaster nullhypotesen så begår vi en type-II-feil.
Betongkvalitet: \[ H_0: \mu_1-\mu_2=0 \text{ mot } H_1: \mu_1-\mu_2 \neq 0\]
- Hvis det er sant at de to produsentene har lik kvalitet på betongen de produserer (lik forventet trykkfasthet), og vi forkaster nullhypotesen, så konkluderer vi med at produsentene har ulik kvalitet. Dette er da type-I-feil: si at kvaliteten er ulik når den faktisk er lik.
- Hvis det er slik at produsent 1 har høyere kvalitet enn produsent 1 og vi ikke forkaster nullhypotesen, så begår vi en type-II-feil. Da oppdager vi ikke forskjell i kvalitet, når det er forskjell.
Relevante videoer: Alle videoer med hypotesetest inneholder dette steget.
Gitt at nullhypotesen er sann, kjenner vi da fordelingen til en observator? Hvis vi finner en observator som ikke inneholder ukjente størrelser, og har kjent fordeling når nullhypotesen er sann - så sier vi at vi har en testobservator. For ensidige alternative hypoteser vil vi enten forkaste nullhypotesen når testobservator er veldig stor eller veldig liten, og for en tosidig alternativ hypotese vil vi forkaste både for store og for små verdier.
Systolisk blodtrykk \[ H_0: \mu=120 \text{ mot } H_1: \mu>120 \] La \(X_1, X_2, \ldots, X_n\) være blodtrykket til \(n\) tilfeldig valgte kvinner fra en populasjon med syke kvinner. Vi antar at \(X_i\) er en normalfordelt stokastisk variabel og at \(\text{E}(X_i)=\mu\) og \(\text{Var}(X_i)=\sigma^2\). Videre vet vi at \(\bar{X}=\frac{1}{n}\sum_{i=1}^n X_i\) er en forventningsrett estimator for \(\mu\), og \(\bar{X} \sim N(\mu,\frac{\sigma^2}{n})\) (normalfordelt med varians \( \frac{\sigma^2}{n}\) ). Hvis vi kjenner verdien til \(\sigma^2\) vil \[ Z=\frac{\bar{X}-\mu}{\frac{\sigma}{\sqrt{n}}}\sim N(0,1)\](en standard normalfordelt stokastisk variabel). Hvis \(\sigma^2\) ikke er kjent er en forventingsrett estimator \(S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X})^2\) og det er kjent at \[ T=\frac{\bar{X}-\mu}{\frac{S}{\sqrt{n}}}\sim t_{n-1}\] Når nullhypotesen er sann kan vi sette inn verdien 120 for \(\mu\), og da markerer vi det ved å bruke notasjonsn \(T_0\). \[ T_0=\frac{\bar{X}-120}{\frac{S}{\sqrt{n}}}\sim t_{n-1}\] Dette er testobservatoren vår.
Betongkvalitet \[ H_0: \mu_1-\mu_2=0 \text{ mot } H_1: \mu_1-\mu_2 \neq 0\]
- La \(X_1, X_2, \ldots, X_{n_1}\) være målt trykkfasthet til \(n_1\) tilfeldig valgte (uavhengige og identisk fordelte) betongprøver fra produsent 1, og anta at \(X_i\) er en normalfordelt stokastisk variabel og at \(\text{E}(X_i)=\mu_1\) og \(\text{Var}(X_i)=\sigma_1^2\).
- La \(Y_1, Y_2, \ldots, Y_{n_2}\) være målt trykkfasthet til \(n_2\) tilfeldig valgte (uavhengige og identisk fordelte) betongprøver fra produsent 2, og anta at \(Y_j\) er en normalfordelt stokastisk variabel og at \(\text{E}(Y_j)=\mu_2\) og \(\text{Var}(Y_j)=\sigma_2^2\).
- Anta at de to utvalgene er uavhengige av hverandre.
For å lage en regel kan vi starte med \(\bar{X}-\bar{Y}\) som er en god estimator for \(\mu_1-\mu_2\). Fra tidligere (parameterestimering) vet vi at \(\bar{X}\) er en vektet sum av uavhengige normalfordelte stokastiske variabler, og er derfor normalfordelt, og at \(\bar{X} \sim N(\mu_1,\frac{\sigma_1^2}{n_1})\), tilsvarende er \(\bar{Y} \sim N(\mu_2,\frac{\sigma_2^2}{n_2})\). Videre er \(\bar{X}\) og \(\bar{Y}\) uavhengige og differansen mellom dem er dermed også normalfordelte \( \bar{X}-\bar{Y} \sim N(\mu_1-\mu_2,\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2})\). og vi kan lage en standard normalfordelt størrelse ved å standardisere: \[Z=\frac{\bar{X}-\bar{Y}-\text{E}(\bar{X}-\bar{Y})}{SD(\bar{X}-\bar{Y})}=\frac{\bar{X}-\bar{Y}-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}\sim N(0,1)\] Nå er \(\sigma_1^2\) og \(\sigma_2^2\) ukjente størrelser som kan estimeres med de to forventningsrette estimatorene \[ S_1^2=\frac{1}{n_1-1}\sum_{i=1}^{n_1}(X_i-\bar{X})^2 \text{ og } S_2^2=\frac{1}{n_2-1}\sum_{j=1}^{n_2}(Y_j-\bar{Y})^2\] Hvis vi erstatter \(\sigma_1\) med \(S_1\) og \(\sigma_2\) med \(S_2\) i uttrykket for \( Z\) over får vi en observator \(T\) som er tilnærmet t-fordelt med \(\nu\) frihetsgrader: \[T=\frac{\bar{X}-\bar{Y}-(\mu_1-\mu_2)}{\sqrt{\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2}}}\sim t_{\nu}\] Dette er testobservatoren vår. Verdien til \(\nu\) finnes som \[ \nu=\frac{(s_1^2/n_1+s_2^2/n_2)^2}{(s_1^2/n_1)^2/(n_1-1)+(s_2^2/n_2)^2/(n_2-1)}\].
Relevante videoer: Alle videoer med hypotesetest inneholder dette steget.
Nå skal vi lage en regel for når vi skal forkaste nullhypotesen. Det kan vi gjøre ved å definere et såkalt forkastningsområde. Anta at testobservatoren vår kalles \(W\). Generelt skal vi finne et tall \( k\) slik vi forkaster nullhypotesen når \( W<k\), \(W>k\) eller \( \lvert W \rvert>k\). Forkastningsregelen lager vi ved å finne k slik at \( P(\text{Forkaste }H_0 \text{ når }H_0 \text{ er sann})\le \alpha\). Når testobservatoren er kontinuerlig (og ikke diskret) klarer vi ofte å finne \(k\) slik at \( P(\text{Forkaste }H_0 \text{ når }H_0 \text{ er sann})= \alpha\), mens i det diskrete tilfellet (slik som når W er binomisk fordelt, se røyke-eksemplet, så må vi være fornøyd med \( \le \alpha\).
Røyking
\[ H_0: p=0.13 \text{ mot } H_1: p<0.13\] Anta at vi har spurt \(n\) personer tilfeldig valgt blant NTNU-studentene og \(X\) av disse har sagt at de røker daglig. Da vil \(X\) være tilnærmet binomisk fordelt med parametere \(n\) forsøk (kjent) og suksess-sannsynlighet \( p\) (ukjent). En god (forventningsrett) estimator for \(p\) er da \(\hat{p}=\frac{X}{n}\). Vi har nå to muligheter, enten kan vi arbeide videre i binomisk fordeling, eller, hvis \(n\) er stor så kan vi bruke sentralgrenseteoremet og jobbe i normalfordelingen. Vi vil her se på løsningen basert på binomisk fordeling. Da er \(X\) testobservatoren vår, og siden den alternative hypotesen er at \(p<0.13\) må vi forkaste hvis \(X\) er liten, og vi skriver \(X < k\), der vi finner \(k \) som er slik at \(P(X<k \text{ når nullhypotesen er sann})\le \alpha\). Når nullhypotesen er sann vet vi at \(p=0.13\). Tallet \(k\) kan vi finne ved å summere punktsannsynligheter i binomisk fordeling med \(n, p=0.13\) fra 0 til og med \(k-1\). Hvis \(n=50\) og \(\alpha=0.1\) viser figuren (til høyre) at i binomisk fordeling er \(P(X<4)=0.096\) mens \(P(X<5)=0.204\) slik at \(k=4\) er det største tallet som er slik at \(P(X<k)\le \alpha\). Forkastningsregelen for utvalgsstørrelse \(n=50\) og \( \alpha=0.1\) er "Forkast \(H_0\) når \(X<4\)".
Systolisk blodtrykk
Testobservatoren vår er \[ T_0=\frac{\bar{X}-120}{\frac{S}{\sqrt{n}}}\sim t_{n-1}\] Vi vil forkaste nullhypotesen hvis \( \bar{X}\) er stor (dette vil reflektere den alternative hypotesen (\(H_1: \mu>120\)), og dermed vil vi dermed forkaste nullhypotesen hvis \(T_0\) er stor, dvs \(T_0>k\) der \(k\) velges ved å løse ligningen: \[ P(T_0>k \text{ når nullhypotesen er sann})=\alpha\] Verdien til \(k\) ser vi enklest ved å lage en figur (til høyre). Fra figuren ser vi at hvis \(k=t_{\alpha,n-1}\) så oppfyller vi kravet om at sannsynligheten for type-I-feil er \(\alpha\). Forkastningsregelen blir dermed "Forkast \(H_0\) når \(T_0>t_{\alpha,n-1}\)".
Betongkvalitet
Testobservatoren vår er \[T_0=\frac{\bar{X}-\bar{Y})}{\sqrt{\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2}}}\sim t_{\nu}\] og vi har en tosidig testsituasjon, slik at vi vil forkaste nullhypotesen både for store positive og store negative verdier av testobservatoren. Anta at vi forkaster nullhypotesen når \(\lvert T_0 \rvert >k\) der \(k\) velges ved å løse ligningen: \[ P(\lvert T_0\rvert >k \text{ når nullhypotesen er sann})=\alpha\] Verdien til \(k\) ser vi enklest ved å lage en figur (til høyre). Fra figuren ser vi at hvis \(k=t_{\frac{\alpha}{2},\nu}\) så oppfyller vi kravet om at sannsynligheten for type-I-feil er \(\alpha\). Forkastningsregelen blir dermed "Forkast \(H_0\) når \(\lvert T_0\rvert >t_{\frac{\alpha}{2},\nu}\).
Relevante videoer: Hypotesetest og forkastningsområde (Mette Langaas, 29:54)
Eksamen, juni 2015, 4b
Anta at testobservatoren vår kalles \(W\), og at vi vet om vi vil forkaste nullhypotesen når \(W\) er stor, \(W\) er liten, eller absoluttverdien til \(W\) er stor.
P-verdien til en test kan vi ikke regne ut før vi har samlet inn data og regnet ut hvilken verdi vi har for testobservatoren innsatt dataene våre. Anta at vi har samlet inn data og regnet ut at verdien til testobservatoren vår er \(w\). Da regner vi ut p-verdien til testen vår som sannsynligheten for det vi har observert eller noe mer ekstremt i retning den alternative hypotesen, når vi antar at nullhypotesen er sann.
Røyking
Her har vi en ensidig test og testobservatoren vår \(X\) er antallet NTNU-studenter som har sagt at de røyker daglig blant de \(n\) vi har spurt. Vi har funnet at når nullhypotesen er sann vil \(X\) være tilnærmet binomisk fordelt med parametere \(n\) forsøk (kjent) og kjent suksess-sannsynlighet \( p=0.13\).
Anta at vi har observert at \(x=6\) av \(n=50\) studenter svarer at de røyker daglig. Hva er "det vi har observert eller noe mer ekstremt"? Siden den alternative hypotesen er at \(p<0.13\) så vil å observere \(x=5\) være mer ekstremt enn å observere \(x=6\), mens \(x=7\) vil være mindre ekstremt.
P-verdien til testen er dermed \[ P(X\le 6)=0.52\] der sannsynligheten er regnet ut når nullhypotesen er sann, dvs når \(X\) er binomisk fordelt med (\(n\)=50 og \(p\)=0.13, og er markert med rødt i figuren til høyre.
Systolisk blodtrykk
Testobservatoren vår er \[ T_0=\frac{\bar{X}-120}{\frac{S}{\sqrt{n}}}\sim t_{n-1}\] og når nullhypotesen er sann er denne \(t\)-fordelt med \(n-1\) frihetsgrader.
Anta at vi har observert systolisk blodtrykk for \(n=30\) syke kvinner, og fra observasjonene \(x_1,x_2,\ldots,x_{30}\) har vi funnet at \(\bar{x}=121.6\) og \(s=\sqrt{\frac{1}{30-1}\sum_{i=1}^{30}(x_i-\bar{x})^2}=8.83\), slik at \[ t_0=\frac{121.6-120}{\frac{8.83}{\sqrt{30}}}=0.98\].
Det som er like eller mer ekstremt enn å observere at testobservatoren vår er \(0.98\) er å observere at testobservatoren er større eller lik \(0.98\) fordi den alternative hypotesen er at det systoliske blodtrykket til de syke kvinnene er høyere enn 120 mmHg. P-verdien regner vi ut som \[P(T_0>0.98)=0.17\] der sannsynligheten er regnet ut når nullhypotesen er sann, dvs. når \(T_0 \sim t_{29}\). P-verdien er arealet av det røde området i figuren til høyre.
Betongkvalitet
Testobservatoren vår er \[T_0=\frac{\bar{X}-\bar{Y}}{\sqrt{\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2}}}\sim t_{\nu}\] og vi har en tosidig testsituasjon.
Anta vi har observert \(n_1=n_2=10\) observasjoner fra hver betongprodusent, og at vi har regnet ut at (alle tall i MPa): \(\bar{x}=56.4, s_1=1.9, \bar{y}=54.5, s_2=2.6\) slik at \(\nu=16\). Da får vi at \(t_0=1.79\).
P-verdien regnes ut som \[ P(\lvert T_0\rvert >1.79)=2\cdot P(T>1.79)=0.092\] der sannsynligheten er regnet ut når nullhypotesen er sanne, dvs at \(T_0\) er \(t\)-fordelt med \(\nu=16\) frihetsgrader, og er markert i rødt på figuren til høyre.
Relevante videoer: Hypotesetest og P-verdi (Mette Langaas, 16:05)
Eksamen, juni 2016, 4d
Når vi har samlet inn data kan vi regne ut verdi for vår testobservator. Anta at testobservatoren vår kalles \(W\), og at vi med innsamlede data har regnet ut at verdien til testobservatoren vår er \(w\).
Hvis vi bruker forkastningsområdemetoden vil vi nå sammenligne vår observerte verdi av testobservatoren med forkastningsgrensen, og forkaste nullhypotesen hvis denne ligger innen forkastningsområde. Hvis vår observerte verdi av testobservatoren ikke ligger i forkastningsområdet vil vi ikke forkaste nullhypotesen.
Hvis vi bruker p-verdi-metoden har vi allerede regnet ut en p-verdi fra vår observerte verdi av testobservatoren. For å finne ut om vi skal forkaste nullhypotesen må vi sammenligne vår p-verdi med vårt valgte signifikansnivå. Hvis p-verdien er lavere enn signifikansnivået vil vi forkaste nullhypotesen. Da har er det vi har observert eller noe mer ekstremt ikke særlig sannsynlig når nullhypotesen er sann, og da tror vi at det må være slik at nullhypotesen må være gal. Hvis p-verdien er høyere enn vårt valgte signifikansnivå vil vi ikke forkaste nullhypotesen. Da kan det vi har observert godt ha inntruffet når nullhypotesen er sann.
Det er alltid slik at vi vil trekke samme konklusjon om vi bruker forkasningsområdemetoden og p-verdi-metoden.
Røyking:
Vi hadde valgt signfikansnivå \(\alpha=0.1\), og fra dette funnet at vi skulle forkaste nullhypotesen når \(X<4\). Vi observerte at \(x=6\) og dermed ville vi ikke forkaste nullhypotesen (figur under til venstre).
Vi regnet ut at p-verdien til testen var 0.52, som er mye større enn 0.1, og følgelig forkaster vi ikke nullhypotesen (figur under til høyre).
Systolisk blodtrykk:
Vi fant forkastningsregelen "Forkast \(H_0\) når \(T_0>t_{\alpha,n-1}\), og hvis vi velger signfikansnivå \(\alpha=0.05\) og \(n=30\) betyr det at \(t_{\alpha,n-1}=t_{0.05,29}=1.7\). Vi observerte data og regnet ut at \( t_0=0.98\), og forkaster dermed ikke nullhypotesen (figur til venstre under).
P-verdien til testen må dermed være større enn signifikansnivået, og vi fant at p-verdien var 0.17, og vi forkaster dermed ikke nullhypotesen (figur til høyre under)
Betongkvalitet:
Forkastningsregelen vår fant vi var "Forkast \(H_0\) når \(\lvert T_0\rvert >t_{\frac{\alpha}{2},\nu}\). Hvis vi velger at \(\alpha=0.1\) og har observert at \(\nu=16\) så finner vi at \(t_{\frac{\alpha}{2},\nu}=t_{0.05,16}=1.746\) (figur til venstre under).
Fra data fant vi at \(t_0=1.79\), som er større enn 2.131, og vi forkaster nullhypotesen.
Vi regnet også ut p-verdien til å være 0.092, som er mindre enn signifikansnivået 0.1 (med et nødskrik), og bekrefter at vi forkaster nullhypotesen (figur til høyre under).
Relevante videoer: Hypotesetest og forkastningsområde (Mette Langaas, 29:54)
Hypotesetest og P-verdi (Mette Langaas, 16:05)
Det er en dualitet mellom en tosidig test (med signifikansnivå \(\alpha\)) og et (tosidig) konfidensintervall med konfidensnivå \((1-\alpha)100\%\).
Hvis den tosidige hypotesetesten er at \(H_0: \mu=\mu_0\) mot \(H_1: \mu\neq \mu_0\) så vil vi forkaste \(H_0\) på nivå \(\alpha\) hvis \(\mu_0\) ikke ligger inne i et \( (1-\alpha)100\%\) konfidensintervall for \(\mu\). Da er \(\mu_0\) ikke en verdi vi har stor tiltro at parameteren \(\mu_0\) kan være.
Hvis den tosidige hypotesetesten er at \(H_0: \mu=\mu_0\) mot \(H_1: \mu\neq \mu_0\) så vil vi ikke forkaste \(H_0\) på nivå \(\alpha\) hvis \(\mu_0\) ligger inne i et \( (1-\alpha)100\%\) konfidensintervall for \(\mu\). Da er \(\mu_0\) en verdi vi har stor tiltro at parameteren \(\mu_0\) kan være.
Teststyrken – eller bare styrken –(for en parameterverdi under den alternative hypotesen) er definert som sannsynligheten for å forkaste nullhypotesen når nullhypotesen er gal og den gitte parameterverdien er den sanne verdien. Styrken er \(1-\beta=1-P(\text{type II feil})\). Styrken er dermed et tall mellom 0 og 1, og vi ønsker å konstruere en test som har en høy styrke, f.eks. er 0.8 en mye brukt ønsket verdi for styrken.
Teststyrken vil være avhengig av:
- Signifikansnivået \(\alpha\) til testen: jo høyere signfikansnivå jo større styrke. Det betyr at hvis vi godtar en høy sannsynlighet for justismord (fengsle en som er uskyldig), vil det være lett å fengsle en skyldig.
- Utvalgsstørrelsen: jo større utvalgsstørrelse jo større styrke. Når vi samler inn mye data vil testobservatoren vår ha mindre usikkerhet enn hvis vi samler inn lite data, og da er det lettere å se at en skyldig tiltalt faktisk er en forbryter.
- Avvik fra nullhypotesen: jo større avvik fra nullhypotesen jo større styrke. Hvis \(H_0: \mu=\mu_0\) mot \(H_1: \mu>\mu_0\) kan vi definere \(\mu_1=\mu_0+\delta\) som en verdi under den alternative hypotesen. Jo større vi setter \(\delta\) jo større styrke har vi i \(\mu_1\). Det er lettere å dømme en skyldig tiltalt som er veldig skyldig enn en som bare er litt skyldig.
- Variabilitet: jo større variabilitet jo mindre teststyrke. Hvis det er stor usikkerhet i dataene vi samler inn er det vanskelig å oppdage en skyldig tiltalt.
Disse to siste punktene kan noen ganger sammen omtales som effektstørrelse.
Den nye medisinen: Medisin A er den markedsledende medisinen for en sykdom, og denne medisinen gir en god virkning for 60\% av pasientene som bruker den. Vi ønsker å teste ut en ny medisin, medisin B, som produsenten reklamerer med at har en god virkning i mer enn 60\% av pasientene som bruker medisinen. Da vil vi teste \(H_0: p=0.6 \text{ mot } H_1: p>0.6\) der \(p\) er den suksessandelen i populasjonen for medisin B.
Vi vil utføre hypotesetesten, men vi tror ikke vi har råd til å samle inn data for mer enn \(n=10\) pasienter. Før vi samler inn data regner vi på styrken til testen, hvis vi samler inn data fra \(n=10\) personer og det er slik at medisin B i sannhet virker for 70\% av pasientene i en utvalgt populasjon. Hvor stor styrke har vi da? Er det forsvarlig å bare samle inn data for \(n=10\) pasienter?
Vi må starte med å finne frem til et forkastningsområde for testen (før vi har samlet inn data). Vi velger signfikansnivå \(\alpha=0.05\). Vi vet (fra røykeeksemplet brukt tidligere) at \(X\)=antall pasienter med god effekt av medisin B vil være binomisk fordelt med \(n\) (kjent) og suksessandel \(p\). Når vi skal bestemme forkastningsområde for testen baserer vi oss på at nullhypotesen er sann, dvs. at \(p=0.6\) og finner at \(P(X\ge 8)=0.17\) og \(P(X\ge 9)=0.046\). Den laveste verdien vi kan forkaste nullhypotesen for (med signifikansnivå \(\alpha=0.05\)) er dermed \(k=9\) og forkastningsregelen vi lager blir "Forkast nullhypotesen når \(X\ge 9\)".
Teststyrken er da å regne ut hvor stor sannsynlighet vi har for å forkaste nullhypotesen med forkastningsregelen vår, gitt at sannheten er at \(p=0.7\). \[ \text{Styrke}=P(X\ge 9 \text{ når } X\sim bin(n=10,p=0.7))=0.15\] Dvs. vi har bare 15% sjanse for å oppdage at 70% av pasientene får god virkning av medisin B når vi samler inn data for \(n=10\) pasienter. Det er dermed etisk forkastelig å gjøre forsøk med bare 10 pasienter hvis målet er å oppdage 70% sjanse for god virkning av medisin B.
Hvis målet vårt istedenfor var å designe forsøket slik at vi hadde god styrke for å oppdage at 90\% av pasientene hadde god effekt av medisin B, kunne vi regne ut styrken for dette alternativet: \[ \text{Styrke}=P(X\ge 9 \text{ når } X\sim bin(n=10,p=0.9))=0.74\] Dvs. vi har nå 74% sjanse for å oppdage at 90% av pasientene får god virkning av medisin B når vi samler inn data for \(n=10\) pasienter. Dette er betraktelig bedre enn 15%, men det er allikevel noe lavt. Vi vil kunne øke styrken hvis vi samler inn data for mer enn 10 pasienter. Det skal vi diskutere videre under "Utvalgstørrelse og styrke".
Vi så under "Teststyrke for hypotesetest" at teststyrken var avhengig av signfikansnivå, utvalgsstørrelse, hvor stort avvik fra nullhypotesen vi ønsker å kunne finne og variabiliteten i forsøket vårt. Vi skal nå fokusere på hvordan vi kan bestemme utvalggstørrelsen slik at vi oppnår ønsket styrke for et gitt avvik fra nullhypotesen.
I noen enkle situasjoner er det mulig å komme frem til en formel for utvalgsstørrelse (normalfordelte data, kjent(e) varians(er)) og i en binomisk forsøkssituasjon er det mulig å prøve seg frem til en løsning (se Eksemplet: den nye medisinen). Mer komplekse situasjoner ligger utenfor pensum i dette faget.
Ensidig test, normalfordelt populasjon, kjent varians
Anta at vi kan samle inn et tilfeldig utvalg av størrelse \(n\) fra en normalfordelt populasjon \(X_1, X_2, \ldots, X_n\)
med forventningsverdi \(\mu\) og kjent varians \(\sigma^2\). Vi vil se på en ensidig testsituasjon:
\[ H_0 \mu=\mu_0 \text{ mot } H_1: \mu> \mu_0\]
Med signifikansnivå \(\alpha\) vil forkastningsregelen bli
"forkast nullhypotesen når \( Z_0=\frac{\bar{X}-\mu_0}{\sigma/\sqrt{n}}>z_{\alpha}\)".
Vi vil nå regne ut styrken for denne testen for alternativet \( \mu_0+\delta\).
\[\text{Teststyrke}=P(Z_0>z_{\alpha}, \text{ når \( \mu_0+\delta\) er sann forventning})
=P(\frac{\bar{X}-\mu_0}{\sigma/\sqrt{n}}>z_{\alpha},\text{ når \( \mu_0+\delta\) er sann forventning})\]
\[=P(\bar{X}>\mu_0+z_{\alpha}\frac{\sigma}{\sqrt{n}} \text{ når \( \mu_0+\delta\) er sann forventning})\]
Siden nå den sanne forventningsverdien er \(\mu_0+\delta\) må vi bruke dette i standardiseringen av \(\bar{X}\)
\[\text{Teststyrke}=1-P(\bar{X}\le \mu_0+z_{\alpha}\frac{\sigma}{\sqrt{n}}, \text{ når \( \mu_0+\delta\) er sann forventning})\]
\[=1-P(\frac{\bar{X}-\mu_0-\delta}{\sigma/\sqrt{n}}\le \frac{\mu_0+z_{\alpha}\frac{\sigma}{\sqrt{n}}-\mu_0-\delta}{\sigma/\sqrt{n}}, \text{ når \( \mu_0+\delta\) er sann forventning})\]
Størrelsen \(\frac{\bar{X}-\mu_0-\delta}{\sigma/\sqrt{n}}\) vil nå være standard normalfordelt og vi får:
\[\text{Teststyrke}=1-\Phi(Z\le z_{\alpha}-\frac{\delta}{\frac{\sigma}{\sqrt{n}}})\]
Som et siste steg vil vi nå sette teststyrken til et gitt tall og så løse ut for \(n\). Siden teststyrken er \(1-P(\text{type II feil})=1-\beta\) tenker vi at vi velger en verdi for \(\beta\), dvs. hvis vi ønsker teststyrke 80% vil \(\beta=0.2\).
\[\text{Teststyrke}=1-\Phi(Z\le z_{\alpha}-\frac{\delta}{\frac{\sigma}{\sqrt{n}}})=1-\beta\] \[\Phi(Z\le z_{\alpha}-\frac{\delta}{\frac{\sigma}{\sqrt{n}}})=\beta\] Det tallet som har areal \(\beta\) til venstre for seg i standardnormalfordelingen noterer vi \( z_{1-\beta}=-z_{\beta}\), og dermed \[z_{\alpha}-\frac{\delta}{\frac{\sigma}{\sqrt{n}}}=-z_{\beta}\] og løser vi ut for \(n\) får vi: \[n = \frac{(z_{\alpha}+z_{\beta})^2 \sigma^2}{\delta^2}\] Utvalgsstørrelsen er et heltall, og hvis formelen f.eks gir \(n=55.6\) velger vi \(n=56\) som vår utvalgsstørrelse.
Tosidig test, normalfordelt populasjon, kjent varians
Det finnes også en tilnærmet formel for en tosidig test:
\[n = \frac{(z_{\alpha/2}+z_{\beta})^2 \sigma^2}{\delta^2}\]
Den nye medisinen: Vi så under "Teststyrken til en hypotesetest" på hvordan vi kunne teste om en ny medisin (medisin B) hadde god virkning for flere enn 60% av pasientene i en populasjon; \(H_0: p=0.6 \text{ mot } H_1: p>0.6\) der \(p\) er den suksessandelen i populasjonen for medisin B. Med \(n=10\) pasienter og signfikansnivå \(\alpha=0.05\) fant vi forkastningsregelen "Forkast nullhypotesen når \(X\ge 9\)", og vi fant at vi kun hadde styrke 0.15 for å oppdage (sannheten) at 70% av pasientene har god virkning av medisin B når vi samler inn data for \(n=10\) pasienter. Vi konkluderte dermed at det var etisk forkastelig å gjøre forsøk med bare 10 pasienter hvis målet er å oppdage 70% sjanse for god virkning av medisin B. Spørsmålet vi nå skal svare på er: hvor stor utvalgsstørrelse må vi ha hvis skal ha 80% styrke for sannheten at \(p=0.7\)?
Vi antar hele tiden at signifikansnivået er uforandret \(\alpha=0.05\). Hvis vi samler inn data fra \(n=10\) pasienter vet vi at forkastningsregelen vår blir "forkast nullhypotesen hvis \(X\ge 9\)", og at dette gir 0.15 om styrke. Hvis vi øker utvalgsstørrelsen til \(n=50\) må vi først regne ut ny forkastningsregel. Den blir "forkast nullhypotesen hvis \(X\ge 37\), fordi \(P(X\ge 37 \text{ når} X\sim bin(n=50,p=0.6))= 0.028\) (som kontrollerer type I feilen på nivå \(0.05\)) og \(P(X\ge 36 \text{ når } X\sim bin(n=50,p=0.6))= 0.054\) (kontrollerer ikke type I feilen på nivå \(0.05\)). Med denne forkastningsregelen blir styrken \[ \text{Styrke}=P(X\ge 37 \text{ når } X\sim bin(n=50,p=0.7))=0.33\] Det er ikke bra nok. Går vi til \(n=143\) blir forkastningsregelen "forkast nullhypotesen når \(X\ge 95\)" og denne regelen har styrke \[ \text{Styrke}=P(X\ge 95 \text{ når } X\sim bin(n=143,p=0.7))=0.80\] Dette er godt nok, vi har 80% styrke, og vi kan sette igang forsøket vårt med \(n=143\) pasienter.