Temaside for TMA4240/TMA4245 Statistikk

Regneregler og regneprosedyrer

Konfidensintervall og prediksjonsintervall

Konfidensintervall og prediksjonsintervall defineres på temasiden for begreper, definisjoner og tolkninger av konfidensintervall og prediksjonsintervall. På samme temaside diskuteres hvordan vi skal tolke disse to intervallene. På temasiden du nå ser på er fokus på hvordan man i en gitt situasjon kan utlede formler for konfidensintervall og prediksjonsintervall. Selv om det er viktige forskjeller mellom konfidensintervall og prediksjonsintervall, spesielt når det gjelder tolkningene av disse to intervallene, er fremgangsmåten for å utlede de to typer intervaller ganske like.

Sentrale begreper

Trykk på det grå feltet for mer informasjon om temaet.

Utlede et konfidensintervall

Utlede et konfidensintervall

Situasjon: Anta at vi har stokastiske variabler \(X_1,X_2,\ldots,X_n\) der sannsynlighetsfordelingen for disse inneholder en parameter \(\theta\), og der verdien til denne parameteren er ukjent. La \(x_1,x_2,\ldots,x_n\) betegne observerte verdier for de stokastiske variablene \(X_1,X_2,\ldots,X_n\). Vi ønsker nå å benytte de observerte verdiene \(x_1,x_2,\ldots,x_n\) til å finne et \((1-\alpha)\cdot 100\%\)-konfidensintervall for \(\theta\).

Beregningsprosedyre: Fremgangsmåten for å finne et slikt konfidensintervall er som følger.

  1. Bestem er stokastisk variabel \[ Z = h(X_1,X_2,\ldots,X_n,\theta)\] som kun er en funksjon av \(X_1,X_2,\ldots,X_n\) og den ukjente verdien til \(\theta\), og som har en kjent sannsynlighetsfordeling \(f_Z(z)\) som ikke avhenger av verdien til parameteren \(\theta\) eller andre parametre man ikke kjenner verdien til. Mange tekster kaller \(h(X_1,X_2,\ldots,X_n,\theta)\) for en pivotal. Ofte kan man finne en slik pivotal ved først å finne
    1. en estimator \(\widehat{\theta}\) for \(\theta\), og så
    2. standardisere denne slik at dens fordelingen ikke avhenger av verdien til \(\theta\). Hvis \(\widehat{\theta}\) er normalfordelt kan man for eksempel standardisere ved å trekke fra forventingsverdien til \(\widehat{\theta}\) og dele på standardavviket til \(\widehat{\theta}\).
  2. Finn \(\frac{\alpha}{2}\)-kvantilen \(z_{1-\frac{\alpha}{2}}\) og \((1-\frac{\alpha}{2})\)-kvantilen \(z_{\frac{\alpha}{2}}\) i fordelinga til \(Z\), som illustrert i følgende figur.

    Dermed har man at \[ P\left( z_{1-\frac{\alpha}{2}} \leq h(X_1,X_2,\ldots,X_n,\theta) \leq z_{\frac{\alpha}{2}}\right) = 1 - \alpha.\]

  3. Løs de to ulikhetene \[ z_{1-\frac{\alpha}{2}} \leq h(X_1,X_2,\ldots,X_n,\theta) ~~~~~\mbox{og}~~~~~ h(X_1,X_2,\ldots,X_n,\theta) \leq z_{\frac{\alpha}{2}}\] hver for seg med hensyn på \(\theta\), og sett så de to ulikhetene sammen igjen slik at du får \(\theta\) alene i midten. Dermed får man et sannsynlighetsuttrykk på formen \[ p\left( \widehat{\theta}_L(X_1,X_2,\ldots,X_n,z_{\frac{\alpha}{2}},z_{1-\frac{\alpha}{2}}) \leq \theta \leq \widehat{\theta}_U(X_1,X_2,\ldots,X_n,z_{\frac{\alpha}{2}},z_{1-\frac{\alpha}{2}})\right) = 1-\alpha\] og intervallestimatoren blir \[ \left[ \widehat{\theta}_L(X_1,X_2,\ldots,X_n,z_{\frac{\alpha}{2}},z_{1-\frac{\alpha}{2}}), \widehat{\theta}_U(X_1,X_2,\ldots,X_n,z_{\frac{\alpha}{2}},z_{1-\frac{\alpha}{2}})\right].\]
  4. Man får da konfidensintervallet ved å erstatte de stokastiske variablene \(X_1,X_2,\ldots,X_n\) med tilhørende observerte verdier \(x_1,x_2,\ldots,x_n\) i utrykket for intervallestimatoren, dvs. \((1-\alpha)\cdot 100\%\)-konfidensintervall for \(\theta\) blir \[ \left[ \widehat{\theta}_L(x_1,x_2,\ldots,x_n,z_{\frac{\alpha}{2}},z_{1-\frac{\alpha}{2}}), \widehat{\theta}_U(x_1,x_2,\ldots,x_n,z_{\frac{\alpha}{2}},z_{1-\frac{\alpha}{2}})\right].\]

Kommentar: I punkt 4 vil man typisk slå opp i en tabell for å finne kvantilene \(z_{1-\frac{\alpha}{2}}\) og \(z_{\frac{\alpha}{2}}\) (eventuelt kan man finne de i matlab). Dette gjelder blant annet dersom \(Z\) er standard normal-, \(t\)- eller \(\chi^2\)-fordelt. For noen sannsynlighetsfordelinger kan man regne ut kvantilene analytisk.

Kommentar: Dersom fordelingen til \(Z\) er symmetrisk omkring \(z=0\) har man dessuten at \(z_{1-\frac{\alpha}{2}}=-z_{-\frac{\alpha}{2}}\). Dette er blant annet tilfelle når \(Z\) er standard normal- eller \(t\)-fordelt.

Eksempel: I dette eksemplet skal vi anta at \(X_1,X_2,\ldots,X_n\) er et tilfeldig utvalg fra en \(n(x;\mu,\sigma)\)-fordeling der verdien til forventingsverdien \(\mu\) er ukjent, mens verdien til variansen \(\sigma^2\) er kjent. Vi skal utlede en formel for et \(95\%\)-konfidensintervall for \(\mu\). Forventingsverdien \(\mu\) spiller her altså samme rolle som \(\theta\) i den generelle beskrivelsen over. Vi gjennomfører utledningen trinn for trinn som beskrevet over.

  1. For å finne en stokastisk variabel \(Z=h(X_1,X_2,\ldots,X_n,\mu)\) med de riktige egenskapene starter vi med en estimator for \(\mu\).
    1. En vanlig estimator for \(\mu\) er \[ \widehat{\mu} = \bar{X} = \frac{1}{n}\sum_{i=1}^n X_i.\] Siden \(\widehat{\mu}\) er en lineær funksjon av de uavhengige og normalfordelte \(X_1,X_2,\ldots,X_n\) blir også \(\widehat{\mu}\) normalfordelt. Forventingsverdi og varians for \(\widehat{\mu}\) finner man ved å benytte regneregler for forventningsverdi og varians, \[\mbox{E}\left[\widehat{\mu}\right] = \mbox{E}\left[\frac{1}{n}\sum_{i=1}^nX_i\right] = \frac{1}{n} \mbox{E}\left[\sum_{i=1}^nX_i\right] = \frac{1}{n} \sum_{i=1}^n \mbox{E}\left[X_i\right] = \frac{1}{n} \sum_{i=1}^n \mu = \mu,\] \[\mbox{Var}\left[\widehat{\mu}\right] =\mbox{Var}\left[ \frac{1}{n}\sum_{i=1}^n X_i\right] = \left(\frac{1}{n}\right)^2 \mbox{Var}\left[\sum_{i=1}^n X_i\right] = \frac{1}{n^2} \sum_{i=1}^n\mbox{Var}\left[X_i\right] = \frac{1}{n^2} \sum_{i=1}^n\sigma^2 = \frac{1}{n^2} \cdot n\sigma^2 = \frac{\sigma^2}{n},\] der vi i utregningen av variansen har benyttet at \(X_i\)-ene er uavhengige. Vi har dermed at \[ \widehat{\mu} = \bar{X} \sim n\left(\bar{x};\mu,\sqrt{\frac{\sigma^2}{n}}\right).\]
    2. Vi standardiserer \(\widehat{\mu}=\bar{X}\) ved å trekke fra forventingsverdien til \(\widehat{\mu}\) og dele på standardavviket til \(\widehat{\mu}\) og får da en størrelse som er standard normalfordelt, \[ Z = \frac{\widehat{\mu}-\mbox{E}\left[\widehat{\mu}\right]}{\sqrt{\mbox{Var}\left[\widehat{\mu}\right]}} = \frac{\bar{X}-\mu}{\sqrt{\frac{\sigma^2}{n}}} \sim n(z;0,1).\] Merk at siden vi har antatt at verdien til variansen \(\sigma^2\) er kjent er det greitt at \(\sigma^2\) inngår i uttrykket for \(Z\).
  2. Siden vi skal finne et \(95\%\)-konfidensintervall er \(\alpha=0.05\), og siden sannsynlighetstettheten til en standard normalfordeling er symmetrisk om \(z=0\) er \(z_{1-\frac{\alpha}{2}}=-z_{\frac{\alpha}{2}}\), som illustrert i følgende figur.

    Fra en tabell over kvantiler i en standard normalfordeling finner vi at \(z_{\frac{\alpha}{2}}=z_{0.025} = 1.96\), og vi har \[ P\left(-z_{\frac{\alpha}{2}} \leq \frac{\bar{X}-\mu}{\sqrt{\frac{\sigma^2}{n}}} \leq z_{\frac{\alpha}{2}}\right) = 1-\alpha.\]

  3. Vi må dermed løse ulikehetene \[ -z_{\frac{\alpha}{2}} \leq \frac{\bar{X}-\mu}{\sqrt{\frac{\sigma^2}{n}}} ~~~~~~\mbox{og}~~~~~~\frac{\bar{X}-\mu}{\sqrt{\frac{\sigma^2}{n}}} \leq z_{\frac{\alpha}{2}}\] hver for seg med hensyn på \(\mu\). Den første ulikheten gir \[ -z_{\frac{\alpha}{2}} \leq \frac{\bar{X}-\mu}{\sqrt{\frac{\sigma^2}{n}}} ~~~\Leftrightarrow~~~ -z_{\frac{\alpha}{2}} \sqrt{\frac{\sigma^2}{n}} \leq \bar{X}-\mu ~~~\Leftrightarrow~~~-\bar{X}-z_{\frac{\alpha}{2}} \sqrt{\frac{\sigma^2}{n}} \leq -\mu ~~~\Leftrightarrow~~~ \bar{X}+z_{\frac{\alpha}{2}} \sqrt{\frac{\sigma^2}{n}} \geq \mu,\] der vi snudde ulikhetstegnet i den siste overgangen når vi ganget med \(-1\) på begge sider av ulikhetstegnet. Den andre ulikheten gir tilsvarende \[\frac{\bar{X}-\mu}{\sqrt{\frac{\sigma^2}{n}}} \leq z_{\frac{\alpha}{2}} ~~~\Leftrightarrow~~~ \bar{X}-\mu \leq z_{\frac{\alpha}{2}} \sqrt{\frac{\sigma^2}{n}} ~~~\Leftrightarrow~~~ -\mu \leq - \bar{X} + z_{\frac{\alpha}{2}} \sqrt{\frac{\sigma^2}{n}} ~~~\Leftrightarrow~~~ \mu \geq \bar{X} - z_{\frac{\alpha}{2}} \sqrt{\frac{\sigma^2}{n}}.\] Setter vi de to ulikhetene sammen igjen med den ukjente \(\mu\) i midten får vi \[ P\left( \bar{X}-z_{\frac{\alpha}{2}}\sqrt{\frac{\sigma^2}{n}} \leq \mu \leq \bar{X}+z_{\frac{\alpha}{2}}\sqrt{\frac{\sigma^2}{n}} \right) = 1-\alpha,\] slik at intervallestimatoren blir \[ \left[ \bar{X}-z_{\frac{\alpha}{2}}\sqrt{\frac{\sigma^2}{n}}, \bar{X}+z_{\frac{\alpha}{2}}\sqrt{\frac{\sigma^2}{n}}\right].\]
  4. Vi får da konfidensintervallet ved å erstatte de stokastiske variablene \(X_1,X_2,\ldots,X_n\) med de observerte verdiene \(x_1,x_2,\ldots,x_n\), dvs vi må erstatte \(\bar{X}=\frac{1}{n}\sum_{i=1}^nX_i\) med \(\bar{x}=\frac{1}{n}\sum_{i=1}^nx_i\) i intervallestimatoren. Konfidensintervallet blir dermed \[ \left[ \bar{x}-z_{\frac{\alpha}{2}}\sqrt{\frac{\sigma^2}{n}}, \bar{x}+z_{\frac{\alpha}{2}}\sqrt{\frac{\sigma^2}{n}}\right],\] der vi husker at \(z_{\frac{\alpha}{2}}=z_{0.025}=1.96\) siden vi skal ha et \(95\%\)-konfidensintervall.

Relevante kapitler: 9.4, 9.8, 9.10, 9.11, 9.12.
Relevante videoer:
\(\ \ \ \)Konfidensintervall (16:46, Håkon Tjelmeland).
\(\ \ \ \)Eksamen august 2015, oppgave 3a (15:23, Thea Bjørnland).
Relevante oppgaver:
\(\ \ \ \)Eksamen august 2016, oppgave 3d (b,n,e).
\(\ \ \ \)Eksamen mai 2016, oppgave 1c (b,n,e).
\(\ \ \ \)Eksamen august 2015, oppgave 3a (b,n,e).
\(\ \ \ \)Eksamen juni 2015, oppgave 3d (b,n,e).
\(\ \ \ \)Eksamen desember 2014, oppgave 3d (b,n,e).
\(\ \ \ \)Eksamen august 2014, oppgave 1d (b,n).
\(\ \ \ \)Eksamen desember 2013, oppgave 4a (b,n,e).
\(\ \ \ \)Eksamen august 2013, oppgave 3b (b,n,e).
\(\ \ \ \)Eksamen mai 2013, oppgave 3e (b,n,e).
\(\ \ \ \)Eksamen desember 2012, oppgave 3b (b,n,e).
\(\ \ \ \)Eksamen mai 2012, oppgave 2b (b,n,e).
\(\ \ \ \)Eksamen desember 2011, oppgave 3b (b,n,e).
\(\ \ \ \)Eksamen august 2011, oppgave 4d (b).
\(\ \ \ \)Eksamen juni 2011, oppgave 2c (b,n,e).
\(\ \ \ \)Eksamen juni 2011, oppgave 3b (b,n,e).
\(\ \ \ \)Eksamen desember 2010, oppgave 2b (b,n,e).
\(\ \ \ \)Eksamen august 2010, oppgave 1j (b,n,e).
\(\ \ \ \)Eksamen juni 2010, oppgave 2d (b,n,e).
\(\ \ \ \)Eksamen desember 2009, oppgave 3c (b,n,e).
\(\ \ \ \)Eksamen mai 2009, oppgave 3b (b,n,e).


Utgangspunkt for å utlede konfidensintervall i de mest vanlige situasjonene

Utgangspunkt for å utlede konfidensintervall i de mest vanlige situasjonene

Innledning: Når man skal utlede et konfidensintervall må man ta utgangspunkt i en størrelse (ofte kalt pivotal) som kun er funksjon av de stokastiske variablene og den parameteren man skal lage konfidensintervall for, og som dessuten har en kjent sannsynlighetsfordeling. For en nærmere diskusjon se under begrepet «Utlede et konfidensintervall» lenger oppe på denne temasiden og spesielt punkt 1 der. Hvordan denne pivotalen velges avhenger av hvilken situasjon man har, dvs hvilke stokastiske variabler man har, hvilke fordeling disse har og hvilken parameter man ønsker konfidensintervall for. Under gis en korfattet oversikt over slike pivotaler for de mest vanlige situasjonene.

Normalfordeling, et-utvalg: Anta at \(X_1,X_2,\ldots,X_n\) er et tilfeldig utvalg fra \(n(x;\mu,\sigma)\)-populasjonen. Man kan da lage konfidensintervall for \(\mu\) eller \(\sigma^2\) og den andre parameteren kan ha en kjent eller ukjent verdi.

Konfidensintervall for Andre parametre Pivotal Merknad
\(\mu\) \(\sigma^2\) kjent \(Z = \frac{\bar{X}-\mu}{\sqrt{\frac{\sigma^2}{n}}} \sim n(z;0,1)\) \(\star\)
\(\sigma^2\) ukjent \(T = \frac{\bar{X}-\mu}{\sqrt{\frac{S^2}{n}}}\sim t_{n-1}\)
\(\sigma^2\) \(\mu\) kjent \(V = \frac{1}{\sigma^2}\sum_{i=1}^n (X_i-\mu)^2 \sim \chi_n^2\)
\(\mu\) ukjent \(V = \frac{1}{\sigma^2} \sum_{i=1}^n (X_i-\bar{X})^2 \sim \chi_{n-1}^2\)

\(\star\): Selv om \(X_1,X_2,\ldots,X_n\) ikke er normalfordelte, men er et tilfeldig utvalg fra en annen fordeling, vil \(Z\) være tilnærmet standard normalfordelt når \(n\) er stor. Dette følger fra sentralgrenseteoremet. Man kan dermed finne et tilnærmet konfidensintervall for \(\mu\) ved å ta utgangspunkt i \(Z\) også i denne situasjonen.

Normalfordeling, to uavhengige utvalg: Anta at \(X_1,X_2,\ldots,X_n\) er et tilfeldig utvalg fra \(n(x;\mu_1,\sigma_1)\)-populasjonen, at \(Y_1,Y_2,\ldots,Y_m\) er et tilfeldig utvalg fra \(n(y;\mu_2,\sigma_2)\)-populasjonen og at \(X_i\)-ene er uavhengige av \(Y_i\)-ene. For å lage konfidensintervall for \(\mu_1-\mu_2\) kan man da ta utgangspunkt i en av disse pivotalene, avhengig av hvilken informasjon man har om \(\sigma_1^2\) og \(\sigma_2^2\).

Konfidensintervall for Andre parametre Pivotal Merknad
\(\mu_1-\mu_2\) \(\sigma_1^2\) og \(\sigma_2^2\) kjente \(~Z=\frac{\bar{X}-\bar{Y}-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n}+\frac{\sigma_2^2}{m}}} \sim n(z;0,1)~\) \(\star\)
\(\sigma_1^2=\sigma_2^2\) ukjent \(T=\frac{\bar{X}-\bar{Y}-(\mu_1-\mu_2)}{\sqrt{S_p^2 \left(\frac{1}{n}+\frac{1}{m}\right)}} \sim t_{n+m-2}\) \(\star\star\)
\(\sigma_1^2\) og \(\sigma_2^2\) ukjente \(T = \frac{\bar{X}-\bar{Y}-(\mu_1-\mu_2)}{\sqrt{\frac{S_1^2}{n}+\frac{S_2^2}{m}}} \approx t_v\) \(\star\star\star\)

\(\star\): Selv om \(X_1,X_2,\ldots,X_n\) og \(Y_1,Y_2,\ldots,Y_m\) ikke er normalfordelte, men er to uavhengige tilfeldige utvalg fra en andre fordelinger, vil \(Z\) være tilnærmet standard normalfordelt når \(n\) og \(m\) er store. Dette følger fra sentralgrenseteoremet. Man kan dermed finne et tilnærmet konfidensintervall for \(\mu_1-\mu_2\) ved å ta utgangspunkt i \(Z\) også i denne situasjonen.

\(\star\star\): Her er \[S_p^2=\frac{1}{n+m-2}\left( \sum_{i=1}^n \left( X_i-\bar{X}\right)^2 + \sum_{i=1}^m \left(Y_i-\bar{Y}\right)^2\right)\].

\(\star\star\star\): Her er \[ v = \frac{\left( \frac{s_1^2}{n}+\frac{s_2^2}{m}\right)^2}{\frac{\left(\frac{s_1^2}{n}\right)^2}{n-1} + \frac{\left(\frac{s_2^2}{m}\right)^2}{m-1}},\] der \(s_1^2\) er empirisk varians for \(X_i\)-ene og \(s_2^2\) er empirisk varians for \(Y_i\)-ene.

Binomisk fordeling, et-utvalg: Anta \(X\sim b(x;n,p)\). Ved å ta utgangspunkt i \(\widehat{p}=\frac{X}{n}\) finnes det når \(n\) er stor to pivotaler man kan ta utgangspunkt i for å finne et konfidensintervall.

Konfidensintervall for Andre parametre Pivotal Merknad
\(p\) \(~~~~~~Z=\frac{\widehat{p}-p}{\sqrt{\frac{p(1-p)}{n}}} \approx n(z;0,1)~~~~~~\) \(\star\)
\(Z = \frac{\widehat{p}-p}{\sqrt{\frac{\widehat{p}(1-\widehat{p})}{n}}} \approx n(z;0,1)\)

\(\star\): Hvis man tar utgangspunkt i denne pivotalen må man løse andregradsulikheter for å komme frem til konfidensintervallet.

Binomisk fordeling, to-utvalg: Anta at \(X\sim b(x;n,p_1)\) og \(Y\sim b(y;m,p_2)\) er uavhengige stokastiske variabler. Ved å ta utgangspunkt i \(\widehat{p}_1=\frac{X}{n}\) og \(\widehat{p}_2=\frac{Y}{m}\) kan man når \(n\) og \(m\) er store finne konfidensintervall for \(p_1-p_2\) ved å ta utgangspunkt i følgende størrelse.

Konfidensintervall for Andre parametre Pivotal Merknad
\(p_1-p_2\) \(Z = \frac{\widehat{p}_1-\widehat{p}_2-(p_1-p_2)}{\sqrt{\frac{\widehat{p}_1(1-\widehat{p}_1)}{n} + \frac{\widehat{p}_2(1-\widehat{p}_2)}{m}}} \approx n(z;0,1)\)

Relevante kapitler: 9.4, 9.8, 9.10, 9.11, 9.12.
Relevante videoer:
Relevante oppgaver:
\(\ \ \ \)Eksamen mai 2016, oppgave 1c (b,n,e).
\(\ \ \ \)Eksamen desember 2010, oppgave 2b (b,n,e).


Utlede et prediksjonsintervall

Utlede et prediksjonsintervall

Situasjon: Anta at vi har stokastiske variabler \(X_1,X_2,\ldots,X_n\) der sannsynlighetsfordelingen for disse kan inneholde en eller flere parametre som vi ikke kjenner verdien til, og la \(x_1,x_2,\ldots,x_n\) betegne observerte verdier for de stokastiske variablene \(X_1,X_2,\ldots,X_n\). Anta videre at vi har en annen stokastisk variabel \(X^\star\) som representerer en fremtidig observasjon og sannsynlighetsfordelingen til denne avhenger også av de samme ukjente parametrene. Vi ønsker nå å benytte de observerte verdiene \(x_1,x_2,\ldots,x_n\) til å finne et \((1-\alpha)\cdot 100\%\)-prediksjonsintervall for den fremtidige observasjonen \(X^\star\).

Beregningsprosedyre: Fremgangsmåten for å finne et slikt prediksjonsintervall er som følger.

  1. Bestem er stokastisk variabel \[ Z = h(X_1,X_2,\ldots,X_n,X^\star)\] som kun er en funksjon av \(X_1,X_2,\ldots,X_n\) og den fremtidige observasjonen \(X^\star\), og som har en kjent sannsynlighetsfordeling \(f_Z(z)\) som ikke avhenger av verdien til de ukjente parametrene.
  2. Finn \(\frac{\alpha}{2}\)-kvantilen \(z_{1-\frac{\alpha}{2}}\) og \((1-\frac{\alpha}{2})\)-kvantilen \(z_{\frac{\alpha}{2}}\) i fordelinga til \(Z\), som illustrert i følgende figur.

    Dermed har man at \[ P\left( z_{1-\frac{\alpha}{2}} \leq h(X_1,X_2,\ldots,X_n,X^\star) \leq z_{\frac{\alpha}{2}}\right) = 1 - \alpha.\]

  3. Løs de to ulikhetene \[ z_{1-\frac{\alpha}{2}} \leq h(X_1,X_2,\ldots,X_n,X^\star) ~~~~~\mbox{og}~~~~~ h(X_1,X_2,\ldots,X_n,X^\star) \leq z_{\frac{\alpha}{2}}\] hver for seg med hensyn på \(X^\star\), og sett så de to ulikhetene sammen igjen slik at du får \(X^\star\) alene i midten. Dermed får man et sannsynlighetsuttrykk på formen \[ p\left( \widehat{X}^\star_L(X_1,X_2,\ldots,X_n,z_{\frac{\alpha}{2}},z_{1-\frac{\alpha}{2}}) \leq X^\star \leq \widehat{X}^\star_U(X_1,X_2,\ldots,X_n,z_{\frac{\alpha}{2}},z_{1-\frac{\alpha}{2}})\right) = 1-\alpha\] og det stokastiske intervallet blir \[ \left[ \widehat{X}^\star_L(X_1,X_2,\ldots,X_n,z_{\frac{\alpha}{2}},z_{1-\frac{\alpha}{2}}), \widehat{X}^\star_U(X_1,X_2,\ldots,X_n,z_{\frac{\alpha}{2}},z_{1-\frac{\alpha}{2}})\right].\]
  4. Man får da prediksjonsintervallet ved å erstatte de stokastiske variablene \(X_1,X_2,\ldots,X_n\) med tilhørende observerte verdier \(x_1,x_2,\ldots,x_n\) i utrykket for det stokastiske intervallet, dvs. \((1-\alpha)\cdot 100\%\)-prediksjonsintervall for \(X^\star\) er \[ \left[ \widehat{X}^\star_L(x_1,x_2,\ldots,x_n,z_{\frac{\alpha}{2}},z_{1-\frac{\alpha}{2}}), \widehat{X}^\star_U(x_1,x_2,\ldots,x_n,z_{\frac{\alpha}{2}},z_{1-\frac{\alpha}{2}})\right].\]

Kommentar: I punkt 4. vil man typisk slå opp i en tabell for å finne kvantilene \(z_{1-\frac{\alpha}{2}}\) og \(z_{\frac{\alpha}{2}}\) (eventuelt kan man finne de i matlab). Dette gjelder blant annet dersom \(Z\) er standard normal-, \(t\)- eller \(\chi^2\)-fordelt. For noen sannsynlighetsfordelinger kan man regne ut kvantilene analytisk.

Kommentar: Dersom fordelingen til \(Z\) er symmetrisk omkring \(z=0\) har man dessuten at \(z_{1-\frac{\alpha}{2}}=-z_{-\frac{\alpha}{2}}\). Dette er blant annet tilfelle når \(Z\) er standard normal- eller \(t\)-fordelt.

Eksempel: I dette eksempelet skal vi anta at \(X_1,X_2,\ldots,X_n\) er et tilfeldig utvalg fra en \(n(x;\mu,\sigma)\)-fordeling der verdien til forventingsverdien \(\mu\) er ukjent, mens verdien til variansen \(\sigma^2\) er kjent. Vi skal utlede en formel for et \(95\%\)-prediksjonsintervall for en ny observasjon \(X^\star\) fra samme fordeling \(x(x^\star;\mu,\sigma)\), der vi antar at \(X^\star\) er uavhengig av \(X_1,X_2,\ldots,X_n\). Her er det altså forventingsverdien \(\mu\) som er parameteren man ikke kjenner verdien til. Vi gjennomfører utledningen trinn for trinn som beskrevet over.

  1. For å finne en stokastisk variabel \(Z=h(X_1,X_2,\ldots,X_n,X^\star)\) kan vi først merke oss at \(\mbox{E}[X^\star]=\mu\) og at en forventingsrett estimator for \(\mu\) er \(\widehat{\mu}=\bar{X}=\frac{1}{n}\sum_{i=1}^n X_i\). Dermed har vi at \(\mbox{E}[X^\star-\bar{X}]=0\). Dessuten er \(X^\star-\bar{X}\) normalfordelt fordi den er en lineær funksjon av de uavhengige og normalfordelte \(X_1,X_2,\ldots,X_n,X^\star\). Vi standardisere så \(X^\star-\bar{X}\) ved å trekke fra forventingsverdien \(\mbox{E}[X^\star-\bar{X}]=0\) og dele på standardavviket til \(X^\star-\bar{X}\) og får da en standard normalfordelt størrelse. For å gjøre dette må vi først finne uttrykk for variansen til \(X^\star-\bar{X}\), \begin{eqnarray} \mbox{Var}[X^\star-\bar{X}] &=& \mbox{Var}\left[ X^\star - \frac{1}{n}\sum_{i=1}^n X_i\right] = \mbox{Var}[X^\star] + \left(-\frac{1}{n}\right)^2 \mbox{Var}\left[\sum_{i=1}^n X_i\right] = \sigma^2 + \frac{1}{n^2} \sum_{i=1}^n \mbox{Var}[X_i]\\ &=& \sigma^2 + \frac{1}{n^2}\sum_{i=1}^n \sigma^2 = \sigma^2 + \frac{1}{n^2}\cdot n\sigma^2 = \sigma^2\cdot \left(1+\frac{1}{n}\right).\end{eqnarray} Den standardiserte størrelsen blir da \[ Z = \frac{(X^\star-\bar{X}) - \mbox{E}[X^\star-\bar{X}]}{\sqrt{\mbox{Var}[X^\star-\bar{X}]}} = \frac{(X^\star-\bar{X})-0}{\sqrt{\sigma^2\left(1+\frac{1}{n}\right)}} = \frac{X^\star-\bar{X}}{\sqrt{\sigma^2\left(1+\frac{1}{n}\right)}} \sim n(z;0,1).\]
  2. Siden vi skal finne et \(95\%\)-prediksjonsintervall er \(\alpha=0.05\), og siden sannsynlighetstettheten til en standard normalfordeling er symmetrisk om \(z=0\) er \(z_{1-\frac{\alpha}{2}}=-z_{\frac{\alpha}{2}}\), som illustrert i følgende figur.

    Fra en tabell over kvantiler i en standard normalfordeling finner vi at \(z_{\frac{\alpha}{2}}=z_{0.025} = 1.96\), og vi har \[ P\left(-z_{\frac{\alpha}{2}} \leq \frac{X^\star-\bar{X}}{\sqrt{\sigma^2\left(1+\frac{1}{n}\right)}} \leq z_{\frac{\alpha}{2}}\right) = 1-\alpha.\]

  3. Vi må dermed løse ulikehetene \[ -z_{\frac{\alpha}{2}} \leq \frac{X^\star-\bar{X}}{\sqrt{\sigma^2\left(1+\frac{1}{n}\right)}} ~~~~~~\mbox{og}~~~~~~\frac{X^\star-\bar{X}}{\sqrt{\sigma^2\left(1+\frac{1}{n}\right)}} \leq z_{\frac{\alpha}{2}}\] hver for seg med hensyn på \(X^\star\). Den første ulikheten gir \[ -z_{\frac{\alpha}{2}} \leq \frac{X^\star-\bar{X}}{\sqrt{\sigma^2\left(1+\frac{1}{n}\right)}} ~~~\Leftrightarrow~~~ -z_{\frac{\alpha}{2}} \sqrt{\sigma^2\left(1+\frac{1}{n}\right)} \leq X^\star - \bar{X} ~~~\Leftrightarrow~~~\bar{X}-z_{\frac{\alpha}{2}} \sqrt{\sigma^2\left(1+\frac{1}{n}\right)} \leq X^\star.\] Den andre ulikheten gir tilsvarende \[\frac{X^\star-\bar{X}}{\sqrt{\sigma^2\left(1+\frac{1}{n}\right)}} \leq z_{\frac{\alpha}{2}} ~~~\Leftrightarrow~~~ X^\star - \bar{X} \leq z_{\frac{\alpha}{2}} \sqrt{\sigma^2\left(\frac{1}{n}\right)} ~~~\Leftrightarrow~~~ X^\star \leq \bar{X} + z_{\frac{\alpha}{2}} \sqrt{\sigma^2\left(1+\frac{1}{n}\right)}.\] Setter vi de to ulikhetene sammen igjen med den fremtidige observasjonen \(X^\star\) i midten får vi \[ P\left( \bar{X}-z_{\frac{\alpha}{2}}\sqrt{\sigma^2\left(1+\frac{1}{n}\right)} \leq X^\star \leq \bar{X}+z_{\frac{\alpha}{2}}\sqrt{\sigma^2\left(1+\frac{1}{n}\right)} \right) = 1-\alpha,\] slik at det stokastiske intervallet blir \[ \left[ \bar{X}-z_{\frac{\alpha}{2}}\sqrt{\sigma^2\left(1+\frac{1}{n}\right)}, \bar{X}+z_{\frac{\alpha}{2}}\sqrt{\sigma^2\left(1+\frac{1}{n}\right)}\right].\]
  4. Vi får da prediksjonsintervallet ved å erstatte de stokastiske variablene \(X_1,X_2,\ldots,X_n\) med de observerte verdiene \(x_1,x_2,\ldots,x_n\), dvs vi må erstatte \(\bar{X}=\frac{1}{n}\sum_{i=1}^nX_i\) med \(\bar{x}=\frac{1}{n}\sum_{i=1}^nx_i\) i det stokastiske intervallet. Prediksjonsintervallet blir dermed \[ \left[ \bar{x}-z_{\frac{\alpha}{2}}\sqrt{\sigma^2\left(1+\frac{1}{n}\right)}, \bar{x}+z_{\frac{\alpha}{2}}\sqrt{\sigma^2\left(1+\frac{1}{n}\right)}\right],\] der vi husker at \(z_{\frac{\alpha}{2}}=z_{0.025}=1.96\) siden vi skal ha et \(95\%\)-prediksjonsintervall.

Relevante kapitler: 9.6
Relevante videoer:
Relevante oppgaver:
\(\ \ \ \)Eksamen august 2014, oppgave 3c (b,n).
\(\ \ \ \)Eksamen mai 2014, oppgave 2e (b,n,e).
\(\ \ \ \)Eksamen desember 2013, oppgave 4b (b,n,e).
\(\ \ \ \)Eksamen mai 2013, oppgave 3f (b,n,e).
\(\ \ \ \)Eksamen desember 2012, oppgave 3c (b,n,e).
\(\ \ \ \)Eksamen august 2012, oppgave 1e (b).
\(\ \ \ \)Eksamen mai 2012, oppgave 4c (b,n,e).
\(\ \ \ \)Eksamen desember 2011, oppgave 3c (b,n,e).
\(\ \ \ \)Eksamen august 2009, oppgave 3c (n).


2019-06-03, Håkon Tjelmeland