Temaside for TMA4240/TMA4245 Statistikk

Begreper, definisjoner og tolkninger

Enkel lineær regresjon

På denne temasiden skal vi ta utgangspunkt i at vi har observert par av verdier \((x_i,y_i),i=1,2,\ldots,n\). Vi ønsker så å benytte disse verdiene til å finne en lineær sammenheng mellom \(x\) og \(y\), dvs. vi ønsker å bestemme hvilken rett linje \(y=\beta_0+\beta_1 x\) som passer best med de observerte parene. Parametrene \(\beta_0\) og \(\beta_1\) representerer altså henholdsvis konstantleddet og stigningstallet for sammenhengen mellom \(x\) og \(y\). En forutsetning for at det skal være fornuftig å estimere en slik lineær sammenheng mellom \(x\) og \(y\) er selvfølgelig at de observerte verdiene \((x_i,y_i),i=1,2,\ldots,n\) faktisk tyder på at det er en lineær sammenheng mellom \(x\) og \(y\), noe man kan sjekke ved å lage et kryssplott med \(x_i\)'ene langs \(x\)-aksen og \(y_i\)'ene langs \(y\)-aksen. Dersom de observerte punktene ser ut til å ligge spredd rundt en rett linje er det rimelig å tilpasse en rett linje som diskutert her. Hvis punktene derimot ser ut til å ligge spredd rundt for eksempel en andregradskurve er det selvfølgelig ikke naturlig å tilpasse en rett linje.

For å kunne estimere verdier for parametrene \(\beta_0\) og \(\beta_1\) fra de observerte parene \((x_i,y_i),i=1,2,\ldots,n\) antar vi en stokastisk modell der vi tenker oss at \(y_i\)-verdiene er realisasjoner av tilhørende stokastiske variabler \(Y_i\) og at \(Y_i=\beta_0+\beta_1 x_i + \varepsilon_i\). Her blir altså \(\varepsilon_i\) avviket mellom \(Y_i\) og den rette linja \(y=\beta_0+\beta_1 x\). Basert på en slik modell skal vi så lage estimatorer \(\widehat{\beta}_0\) og \(\widehat{\beta}_1\) for parametrene \(\beta_0\) og \(\beta_1\). Videre skal vi konstruere konfidensintervall og hypotesetester for de samme to parametrene, og vi skal benytte modellen til å utlede prediksjonsintervall for en fremtidig verdi \(y_0\) når denne skal gjøres for en verdi \(x=x_0\).

Introduksjonsvideo: Enkel lineær regresjon (15:34, Håkon Tjelmeland)

Sentrale begreper

Trykk på det grå feltet for mer informasjon om temaet.

Modellantagelser

Modellantagelser

Innledning: Utgangspunktet i enkel lineær regresjon er at man har observasjonspar \((x_i,y_i),i=1,2,\ldots,n\). For å få en første oversikt over observasjonene bør man plott verdiene i et kryssplott med \(x_i\)-verdiene langs \(x\)-aksen og \(y_i\)-verdiene langs \(y\)-aksen. Tre eksempler på hvordan et slikt kryssplott kan se ut er gitt her.

Dersom punktene \((x_i,y_i),i=1,2,\ldots,n\) i kryssplottet synes å ligge spredd rundt en rett linje slik det er i venstre og midterste kryssplott over er det rimelig å spørre om hviken rett linje som passer best til de observasjonspunktene. Dersom punktene i kryssplottet ikke synes å være spredd rundt en rett linje, som i kryssplottet til høyre over, er det selvfølgelig ikke rimelig å spørre hvilken rett linje som passer best til dataene. Da bør man heller finne en ikke-lineær sammenheng som kan beskrive de observerte punktene.

Videre på denne temasiden forutsetter vi at kryssplottet for de observerte punktene \((x_i,y_i),i=1,2,\ldots,n\) indikerer at en lineær sammenheng mellom \(x\) og \(y\) er rimelig. Vi definerer en modell for hvordan vi tenker oss at de observerte datene er fremkommet og med i utgangspunkt i denne modellen diskuterer vi hvordan man kan estimere en lineær sammenhengen mellom \(x\) og \(y\).

Modellantagelser: I en enkel lineær regersjonsmodell antar vi at hver observert \(y\)-verdi er en realisasjon av en tilhørende stokastiske variabel \(Y\), og at sammenhengen mellom tilhørende \(x\) og \(Y\) er gitt av ligningen \[ Y = \beta_0 + \beta_1 x + \varepsilon, \] der \(\beta_0\) og \(\beta_1\) er parametre, mens \(\varepsilon\) er en stokastisk variabel med forventingsverdi \(\mbox{E}[\varepsilon]=0\) og varians \(\mbox{Var}[\varepsilon]=\sigma^2\). Man har dermed en modell med tre parametre, \(\beta_0\), \(\beta_1\) og \(\sigma^2\).

Kommentar: I modellen velger man altså å betrakte \(y\)'ene som realisasjoner av stokastiske variabler, mens \(x\)'ene velger man å betrakte som konstanter eller tall. Man sier gjerne at \(x\) er en uavhengig variabel og at \(y\) er den avhengige variabelen. Det er også mye vanlig å omtale \(x\) som en forklaringsvariabel, da man tenker at verdien til \(x\) forklarer (et stykke på vei) hvilken verdi \(y\) får.

Kommentar: I en regresjonssituasjon har man to rette linjer. Først har vi den ukjente linja som angir den sanne sammenhengen mellom \(x\) og \(y\), altså \(y=\beta_0+\beta_1 x\). I modellen antar vi at en slik rett linje finnes, men vi vet ikke hvor den er. Når vi ut fra de observerte parene \((x_1,y_1),(x_2,y_2),\ldots,(x_n,y_n)\) har beregnet estimater \(\widehat{\beta}_0\) og \(\widehat{\beta}_1\) for de to paramtrene \(\beta_0\) og \(\beta_1\) får vi den estimerte linja \(y=\widehat{\beta}_0 + \widehat{\beta}_1x\). I figuren under har vi illustrert situasjonen ved å simulere observasjonenparene i matlab. Vi har definert den sanne linja som \(y=3.2-x\), dvs vi har valgt \(\beta_0=3.2\) og \(\beta_1=-1.0\). Denne sanne linja er grønn i figuren. Med disse verdiene for \(\beta_0\) og \(\beta_1\) og med \(\sigma = 0.35\) har vi så simulert observasjonsparene som er vist i rødt i figuren. Estimatene for \(\beta_0\) og \(\beta_1\) basert på disse observasjonene blir henholdsvis \(\widehat{\beta}_0=3.100055\) og \(\widehat{\beta}_1=-0.9386351\) og den tilhørende linja \(y=\widehat{\beta}_0 + \widehat{\beta}_1x\) er blå i figuren. Som vi ser er de to linjene ikke like, men de vil selvfølgelig normalt ikke være så veldig ulike.

Hvorfor kalles det «enkel lineær regresjon»?: Regresjon betyr å estimere en funksjonssammenheng mellom \(x\) og \(y\). Modellen over er en lineær regresjon fordi \(y\) er antatt å være en lineær funksjon av parametrene \(\beta_0\) og \(\beta_1\). Grunnen til at modellen kalles lineær er altså ikke at \(y\) er en lineær funksjon av \(x\), så for eksempel vil modellen \(Y=\beta_0+\beta_1x^2+\varepsilon\) også kalles lineær. Modellen er enkel fordi den kun har en forklaringsvariabel \(x\). En lineær modell med for eksempel to forklaringsvariabler, \(Y=\beta_0+\beta_1x+\beta_2z+\varepsilon\), kalles en multippel lineær regresjonsmodell.

Relevante kapitler: 11.1, 11.2.
Relevante videoer:
\(\ \ \ \)Enkel lineær regresjon (15:34, Håkon Tjelmeland)
\(\ \ \ \)Eksamen mai 2016, oppgave 2b (17:05, Mette Langaas)
Relevante oppgaver:
\(\ \ \ \)Eksamen desember 2016, oppgave 4a (b,n,e).
\(\ \ \ \)Eksamen desember 2015, oppgave 4b (b,n,e).
\(\ \ \ \)Eksamen mai 2014, oppgave 2f (b,n,e).
\(\ \ \ \)Eksamen mai 2013, oppgave 4b (b,n,e).
\(\ \ \ \)Eksamen mai 2012, oppgave 4b (b,n,e).
\(\ \ \ \)Eksamen juni 2011, oppgave 2b og e (b,n,e).
\(\ \ \ \)Eksamen desember 2010, oppgave 4b (b,n,e).
\(\ \ \ \)Eksamen mai 2009, oppgave 3a (n).


Minste kvadraters metode

Minste kvadraters metode

Situasjon: Anta at vi har observasjonspar \((x_i,y_i),i=1,2,\ldots,n\) og at vi antar en enkel lineær regresjonsmodell for disse dataene. Vi ønsker å benytte de observerte verdiene til å finne estimater \(\widehat{\beta}_0\) og \(\widehat{\beta}_1\) for de to parametrene \(\beta_0\) og \(\beta_1\). Den tilpassede eller estimerte regresjonslinja blir dermed \[ \widehat{y} = \widehat{\beta}_0 + \widehat{\beta}_1 x. \]

Kriterium: I minste kvadraters metode måler man avviket mellom de observerte \(y\)-verdiene og den tilpassede eller estimerte regresjonslinja ved kvadratsummen \[ \text{SSE} = \sum_{i=1}^n (y_i - \widehat{y}_i)^2 = \sum_{i=1}^n \left( y_i - \widehat{\beta}_0 - \widehat{\beta}_1x_i\right)^2. \] Man velger så estimatene \(\widehat{\beta}_0\) og \(\widehat{\beta}_1\) slik at \(\text{SSE}\) blir minst mulig.

Illustrasjon: Kriteriet som blir benyttet er illustrert i følgende figur, hvor observasjonsparene er vist i rødt, den estimerte regresjonslinja er blå og differensene \(y_i-\widehat{y}_i\) som inngår i uttrykket for \(\text{SSE}\) er vist i grønt.

Utledning av minste kvadraters estimatorer: For å utlede formler for \(\widehat{\beta}_0\) og \(\widehat{\beta}_1\) må man dermed finne hvilke verdier for \(\widehat{\beta}_0\) og \(\widehat{\beta}_1\) som minimerer \(\text{SSE}\). Man kan finne dette ved å sette de partiellderiverte av \(\text{SSE}\) med hensyn på hver av \(\widehat{\beta}_0\) og \(\widehat{\beta}_1\) lik null. Man må dermed løse ligningssystemet \[ \frac{\partial \text{SSE}}{\partial \widehat{\beta}_0} = 0 \hspace{1.0cm}og\hspace{1.0cm} \frac{\partial \text{SSE}}{\partial \widehat{\beta}_1} = 0 \] med hensyn på \(\widehat{\beta}_0\) og \(\widehat{\beta}_1\).

Detaljert utregning av \(\widehat{\beta}_0\) og \(\widehat{\beta}_1\)

Detaljert utregning av \(\widehat{\beta}_0\) og \(\widehat{\beta}_1\)

Vi starter med å regne ut de to partiellderiverte. Vi benytter at vi kan derivere på innsiden av summetegnet og bruker kjerneregelen for å derivere hvert ledd i summen. \begin{eqnarray*} \frac{\partial \text{SSE}}{\partial \widehat{\beta}_0} &=& \sum_{i=1}^n 2\left( y_i - \widehat{\beta}_0 - \widehat{\beta}_1 x_i\right) \cdot (-1) \\ &=& -2\left( \sum_{i=1}^n y_i - n\widehat{\beta}_0 - \widehat{\beta}_1\sum_{i=1}^n x_i\right)\\ \frac{\partial \text{SSE}}{\partial \widehat{\beta}_1} &=& \sum_{i=1}^n 2\left( y_i - \widehat{\beta}_0 - \widehat{\beta}_1 x_i\right) \cdot (-x_i) \\ &=& -2\left( \sum_{i=1}^n x_iy_i - \widehat{\beta}_0\sum_{i=1}^n x_i - \widehat{\beta}_1\sum_{i=1}^n x^2_i\right) \end{eqnarray*} Ved å sette hver av de to partiellderiverte lik null får vi ligningene \begin{eqnarray} \frac{\partial \text{SSE}}{\partial \widehat{\beta}_0} = 0 \hspace{1.0cm}&\Leftrightarrow&\hspace{1.0cm} n\widehat{\beta}_0 + \widehat{\beta}_1\sum_{i=1}^n x_i = \sum_{i=1}^n y_i,\\ \frac{\partial \text{SSE}}{\partial \widehat{\beta}_1} = 0 \hspace{1.0cm}&\Leftrightarrow&\hspace{1.0cm} \widehat{\beta}_0\sum_{i=1}^n x_i + \widehat{\beta}_1\sum_{i=1}^n x_i^2 = \sum_{i=1}^n x_iy_i. \end{eqnarray} Man må følgelig løse ligningssystemet \[ n\widehat{\beta}_0 + \widehat{\beta}_1\sum_{i=1}^n x_i = \sum_{i=1}^n y_i \hspace{1.0cm}\text{og}\hspace{1.0cm} \widehat{\beta}_0\sum_{i=1}^n x_i + \widehat{\beta}_1\sum_{i=1}^n x_i^2 = \sum_{i=1}^n x_iy_i \] med hensyn på \(\widehat{\beta}_0\) og \(\widehat{\beta}_1\).

Før man begynner å løse ligningssystemet kan det lønne seg å innføre en notasjon som skjuler summene som inngår i ligningssystemet. Det vanlige er å definere \[ S_{xx} = \sum_{i=1}^n (x_i-\bar{x})^2 \hspace{1.0cm}\text{og}\hspace{1.0cm} S_{xy} = \sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y}) \] der \(S\)'ene symboliserer sum og indeksene på \(S\)'ene indikerer hva det summeres over. Man bør dessuten merke seg at \[ \bar{x}=\frac{1}{n}\sum_{i=1}^n x_i \hspace{0.3cm}\Leftrightarrow\hspace{0.3cm} \sum_{i=1}^n x_i = n\bar{x} \] og tilsvarende for \(y_i\)'ene \[ \bar{y}=\frac{1}{n}\sum_{i=1}^n y_i \hspace{0.3cm}\Leftrightarrow\hspace{0.3cm} \sum_{i=1}^n y_i = n\bar{y}. \] Ved å gange ut kvadratet og produktet i uttrykket for henholdsvis \(S_{xx}\) og \(S_{xy}\) og benytte de to egenskapene vi nettopp fant kan man finne alternative uttrykk for \(S_{xx}\) og \(S_{xy}\), \begin{eqnarray} S_{xx} &=& \sum_{i=1}^n \left( x_i^2 - 2x_i \bar{x} + \bar{x}^2\right) = \sum_{i=1}^n x_i^2 - 2\bar{x}\sum_{i=1}^n x_i + n\bar{x}^2\\ &=& \sum_{i=1}^n x_i^2 - 2\bar{x} n\bar{x} + n\bar{x}^2 = \sum_{i=1}^n x_i^2 - n\bar{x}^2,\\ S_{xy} &=& \sum_{i=1}^n (x_iy_i - x_i\bar{y} - \bar{x}y_i + \bar{x}\bar{y}) = \sum_{i=1}^n x_iy_i - \bar{y}\sum_{i=1}^n x_i - \bar{x}\sum_{i=1}^n y_i + n\bar{x}\bar{y} \\ &=& \sum_{i=1}^n x_iy_i - \bar{x}n\bar{y} - \bar{x}n\bar{y} + n\bar{x}\bar{y} = \sum_{i=1}^n x_iy_i - n\bar{x}\bar{y}. \end{eqnarray} Dermed har vi at \[ \sum_{i=1}^n x_i^2 = S_{xx} + n\bar{x}^2 \hspace{1.0cm}\text{og}\hspace{1.0cm} \sum_{i=1}^n x_i y_i = S_{xy} + n \bar{x}\bar{y}. \] Setter vi disse utrykkene, samt utrykkene vi tidligere fant for summene over \(x_i\)'ene og over \(y_i\)'ene inn i ligningssystemet vi kom frem til over får vi at ligningssystemet nå kan skrives på formen \[ n\widehat{\beta}_0 +\widehat{\beta}_1 n\bar{x} = n\bar{y} \hspace{1.0cm}\text{og}\hspace{1.0cm} \widehat{\beta}_0n\bar{x} +\widehat{\beta}_1 \left( S_{xx}+n\bar{x}^2\right) = S_{xy}+n\bar{x}\bar{y}. \] For å løse dette ligningssystemet kan vi for eksempel starte med å løse den første ligningen med hensyn på \(\widehat{\beta}_0\), \[ \widehat{\beta}_0 = \bar{y}-\widehat{\beta}_1 \bar{x}, \] og sette dette utrykket for \(\widehat{\beta}_0\) inn i den andre ligningen, \[ \left(\bar{y}-\widehat{\beta}_1 \bar{x}\right) n\bar{x} + \widehat{\beta}_1 \left( S_{xx}+n\bar{x}^2\right) = S_{xy}+n\bar{x}\bar{y}. \] Hvis man så ganger ut de to parentesene i denne ligningen, rydder opp og løser ligningen ved hensyn på \(\widehat{\beta}_1\), får man at \[ \widehat{\beta}_1 = \frac{S_{xy}}{S_{xx}} = \frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n (x_i-\bar{x})^2} \] Det er vanlig å omskrive uttrykket i telleren. Ved å gange ut den siste parentesen i uttrykket for \(S_{xy}\) får man at \begin{eqnarray} S_{xy} &=& \sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y}) = \sum_{i=1}^n \left[ (x_i-\bar{x})y_i - (x_i-\bar{x})\bar{y}\right] = \sum_{i=1}^n (x_i-\bar{x})y_i - \bar{y}\sum_{i=1}^n (x_i-\bar{x})\\ &=& \sum_{i=1}^n (x_i-\bar{x})y_i - \bar{y}\left[ \sum_{i=1}^n x_i - n\bar{x}\right] = \sum_{i=1}^n (x_i-\bar{x})y_i, \end{eqnarray} der vi i den siste overgangen har benyttet at \(\sum_{i=1}^n x_i = n\bar{x}\) som vi utledet over. Minste kvadraters estimatene er dermed gitt som \[ \widehat{\beta}_1 = \frac{\sum_{i=1}^n (x_i-\bar{x})y_i}{\sum_{i=1}^n (x_i-\bar{x})^2} \hspace{1.0cm}\text{og}\hspace{1.0cm} \widehat{\beta}_0 = \bar{y} - \widehat{\beta}_1 \bar{x}. \]

Minste kvadraters estimatene blir \[ \widehat{\beta}_1 = \frac{\sum_{i=1}^n (x_i-\bar{x})y_i}{\sum_{i=1}^n (x_i-\bar{x})^2} \hspace{1.0cm}\text{og}\hspace{1.0cm} \widehat{\beta}_0 = \bar{y} - \widehat{\beta}_1 \bar{x}, \] der \(\bar{x}=\frac{1}{n}\sum_{i=1}^nx_i\) og \(\bar{y}=\frac{1}{n}\sum_{i=1}^ny_i\). Vi får tilhørende estimatorer ved å erstatte de observerte verdier \(y_i\) med tilhørende stokastiske variabler \(Y_i\) i disse uttrykkene, \[ \widehat{\beta}_1 = \frac{\sum_{i=1}^n (x_i-\bar{x})Y_i}{\sum_{i=1}^n (x_i-\bar{x})^2} \hspace{1.0cm}\text{og}\hspace{1.0cm} \widehat{\beta}_0 = \bar{Y} - \widehat{\beta}_1 \bar{x}, \] der \(\bar{Y}=\frac{1}{n}\sum_{i=1}^n Y_i\). Egenskapene til disse estimatorene blir diskutert lenger ned på denne temasiden, under "Egenskaper til estimatorene".

Relevante kapitler: 11.3.
Relevante videoer:
\(\ \ \ \)Eksamen mai 2016, oppgave 2b (17:05, Mette Langaas)
Relevante oppgaver:
\(\ \ \ \)Eksamen desember 2016, oppgave 4a (b,n,e).
\(\ \ \ \)Eksamen mai 2014, oppgave 2d (b,n,e).
\(\ \ \ \)Eksamen desember 2013, oppgave 4a (b,n,e).
\(\ \ \ \)Eksamen desember 2012, oppgave 3a (b,n,e).
\(\ \ \ \)Eksamen mai 2009, oppgave 3a (n).


Sannsynlighetsmaksimeringsestimatorene

Sannsynlighetsmaksimeringsestimatorene

Kommentar: Under "Modellantagelser" lenger opp på denne temasiden antar vi en modell for hvordan vi tenker oss at observasjonsene \((x_i,y_i),i=1,2,\ldots,n\) er fremkommet. Man skal merke seg at denne modellen ikke er fullspesifisert siden den ikke sier noe om hvilken type sannsynlighetsfordeling de stokastiske variablene \(\varepsilon_i,i=1,2,\ldots,n\) har. Man trenger ikke å spesifisere sannsynlighetsfordelingen til \(\varepsilon_i\)'ene for å benytte minste kvadraters metode som vi diskuterte lenger opp på denne temasiden. Sannsynlighetsmaksimeringsestimatorene derimot, vil være avhengig av hvilken type sannsynlighetsfordeling \(\varepsilon_i\)'ene har.

Modell: Anta modellen definert under "Modellantagelser" lenger opp på denne temasiden, og anta at \(\varepsilon_i\)'ene er uavhengige og normalfordelte. Dette betyr at \(\varepsilon_i\sim N(0,\sigma^2)\), og siden \(Y_i = \beta_0 + \beta_1 x_i + \varepsilon_i\) er en lineær funksjon av \(\varepsilon_i\) blir også \(Y_i\) normalfordelt. Ved å benytte regnereglene for forventingsverdi og varians får vi at \(\mbox{E}[Y_i] = \beta_0+\beta_1x_i\) og \(\mbox{Var}[Y_i] = \sigma^2\). Vi har dermed at \(Y_i,i=1,2,\ldots,n\) er uavhengige og \[ Y_i \sim N(\beta_0+\beta_1x_i,\sigma^2). \]

Kriterium: For å bestemme estimatorer for de tre modellparametrene \(\beta_0\), \(\beta_1\) og \(\sigma^2\) benytter vi nå sannsynlighetsmaksimeringsprinsippet. Dette prinsippet er diskutert på temasiden for begreper, definisjoner og tolkninger: Parameterestimering, og en prosedyre for å regne ut tilhørende estimatorer er angitt på temasiden for regneregler og regneprosedyrer: Parameterestimering.

Utledning av sannsynlighetsmaksimeringsestimatorene (SME): For å utlede sannsynlighetsmaksimeringsestimatorene starter vi med å finne rimelighetsfunksjonen. Siden \(Y_i\)'ene er uavhengige og \(Y_i\sim N(\beta_0+\beta_1x_i,\sigma^2)\) får vi at \[ L(\beta_0,\beta_1,\sigma^2) = f(y_1,y_2,\ldots,y_n;\beta_0,\beta_1,\sigma^2) = \prod_{i=1}^n \left[ \frac{1}{\sqrt{2\pi}} \, \frac{1}{\sigma}\, \exp\left\{ -\frac{1}{2\sigma^2} (y_i - (\beta_0+\beta_1x_i))^2\right\}\right]. \] Vi finner log-rimelighetsfunksjonen ved å ta \(\ln\) av rimelighetsfunksjonen, og siden vi ønsker estimator for \(\sigma^2\) og ikke \(\sigma\) passer vi på å uttrykke log-rimelighetsfunksjonen som funksjon av \(\sigma^2\) og ikke bare \(\sigma\) alene, \begin{eqnarray} l(\beta_0,\beta_1,\sigma^2) = \ln L(\beta_0,\beta_1,\sigma^2) &=& \sum_{i=1}^n \left[ -\frac{1}{2}\ln (2\pi) - \frac{1}{2}\ln \sigma^2 - \frac{1}{2\sigma^2}(y_i-\beta_0-\beta_1x_i)^2\right] \\ &=& \frac{n}{2}\ln (2\pi) - \frac{n}{2}\ln (\sigma^2) - \frac{1}{2\sigma^2}\sum_{i=1}^n (y_i - \beta_0-\beta_1x_i)^2. \end{eqnarray} Vi finner så for hvilke verdier av \(\beta_0\), \(\beta_1\) og \(\sigma^2\) log-rimelighetsfunksjonen har sitt maksimum ved å derivere og sette lik null. Siden vi har tre parametre må vi regne ut den partiellderiverte med hensyn på hver av dem og sette alle lik null. Vi vil da ende opp med et ligningssystem med tre ligninger som må løses med hensyn på de tre ukjente parametrene \(\beta_0\), \(\beta_1\) og \(\sigma^2\).

Detaljert utregning av estimatorene

Detaljert utregning av estimatorene

De partiellderiverte blir \begin{eqnarray} \frac{\partial l}{\partial \beta_0} &=& -\frac{1}{2\sigma^2} \sum_{i=1}^n 2(y_i-\beta_0-\beta_1x_i)\cdot (-1) = \frac{1}{\sigma^2} \sum_{i=1}^n (y_i-\beta_0-\beta_1x_i)\\ &=& \frac{1}{\sigma^2}\left[ \sum_{i=1}^n y_i - n\beta_0 - \beta_1\sum_{i=1}^n x_i\right],\\ \frac{\partial l}{\partial \beta_1} &=& -\frac{1}{2\sigma^2}\sum_{i=1}^n 2(y_i - \beta_0-\beta_1x_i)\cdot (-x_i) = \frac{1}{\sigma^2} \sum_{i=1}^n (y_i-\beta_0-\beta_1x_i)x_i\\ &=& -\frac{1}{\sigma^2}\left[ \sum_{i=1}^n x_iy_i - \beta_0\sum_{i=1}^n x_i - \beta_1\sum_{i=1}^n x_i^2\right],\\ \frac{\partial l}{\partial \sigma^2} &=& -\frac{n}{2} \, \frac{1}{\sigma^2} - \frac{1}{2}\left( - \frac{1}{(\sigma^2)^2}\right) \sum_{i=1}^n (y_i-\beta_0-\beta_1x_i)^2\\ &=& - \frac{n}{2\sigma^2} + \frac{1}{2(\sigma^2)^2}\sum_{i=1}^n (y_i-\beta_0-\beta_1x_i)^2. \end{eqnarray} Ved å sette hver av de partiellderiverte lik null får vi ligningene \begin{eqnarray} \frac{\partial l}{\partial \beta_0} = 0 \hspace{1.0cm}&\Leftrightarrow&\hspace{1.0cm} n\beta_0 +\beta_1\sum_{i=1}^n x_i = \sum_{i=1}^n y_i,\\ \frac{\partial l}{\partial \beta_1} = 0 \hspace{1.0cm}&\Leftrightarrow&\hspace{1.0cm} \beta_0\sum_{i=1}^n x_i +\beta_1\sum_{i=1}^nx_i^2 = \sum_{i=1}^n x_iy_i,\\ \frac{\partial l}{\partial \sigma^2} = 0 \hspace{1.0cm}&\Leftrightarrow&\hspace{1.0cm} n = \frac{1}{\sigma^2}\sum_{i=1}^n (y_i-\beta_0-\beta_1x_i)^2. \end{eqnarray} Man må følgelig løse ligningssystemet \[ n\beta_0 +\beta_1\sum_{i=1}^n x_i = \sum_{i=1}^n y_i,\hspace{1.0cm} \beta_0\sum_{i=1}^n x_i +\beta_1\sum_{i=1}^nx_i^2 = \sum_{i=1}^n x_iy_i\hspace{1.0cm}\text{og}\hspace{1.0cm} n = \frac{1}{\sigma^2}\sum_{i=1}^n (y_i-\beta_0-\beta_1x_i)^2 \] med hensyn på \(\beta_0\), \(\beta_1\) og \(\sigma^2\). Siden de to første ligningene kun avhenger \(\beta_0\) og \(\beta_1\) kan vi løse ligningssystemet ved først å løse de to første ligningene med hensyn på \(\beta_0\) og \(\beta_1\), og etterpå sette disse inn i den siste ligningen for å finne løsning for \(\sigma^2\). Man kan også merke seg at de to første ligningene er identiske med ligningene som blir løst for minste kvadraters metode. Når vi her videre starter med å løse disse to ligningene benytter vi derfor identisk fremgangsmåte som under minste kvadraters metode.

Før man begynner å løse de to første ligningene med hensyn på \(\beta_0\) og \(\beta_1\) kan det lønne seg å innføre en notasjon som skjuler summene som inngår i disse to ligningene. Det vanlige er å definere \[ S_{xx} = \sum_{i=1}^n (x_i-\bar{x})^2 \hspace{1.0cm}\text{og}\hspace{1.0cm} S_{xy} = \sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y}) \] der \(S\)'ene symboliserer sum og indeksene på \(S\)'ene indikerer hva det summeres over. Man bør dessuten merke seg at \[ \bar{x}=\frac{1}{n}\sum_{i=1}^n x_i \hspace{0.3cm}\Leftrightarrow\hspace{0.3cm} \sum_{i=1}^n x_i = n\bar{x} \] og tilsvarende for \(y_i\)'ene \[ \bar{y}=\frac{1}{n}\sum_{i=1}^n y_i \hspace{0.3cm}\Leftrightarrow\hspace{0.3cm} \sum_{i=1}^n y_i = n\bar{y}. \] Ved å gange ut kvadratet og produktet i uttrykket for henholdsvis \(S_{xx}\) og \(S_{xy}\) og benytte de to egenskapene vi nettopp fant kan man finne alternative uttrykk for \(S_{xx}\) og \(S_{xy}\), \begin{eqnarray} S_{xx} &=& \sum_{i=1}^n \left( x_i^2 - 2x_i \bar{x} + \bar{x}^2\right) = \sum_{i=1}^n x_i^2 - 2\bar{x}\sum_{i=1}^n x_i + n\bar{x}^2\\ &=& \sum_{i=1}^n x_i^2 - 2\bar{x} n\bar{x} + n\bar{x}^2 = \sum_{i=1}^n x_i^2 - n\bar{x}^2,\\ S_{xy} &=& \sum_{i=1}^n (x_iy_i - x_i\bar{y} - \bar{x}y_i + \bar{x}\bar{y}) = \sum_{i=1}^n x_iy_i - \bar{y}\sum_{i=1}^n x_i - \bar{x}\sum_{i=1}^n y_i + n\bar{x}\bar{y} \\ &=& \sum_{i=1}^n x_iy_i - \bar{x}n\bar{y} - \bar{x}n\bar{y} + n\bar{x}\bar{y} = \sum_{i=1}^n x_iy_i - n\bar{x}\bar{y}. \end{eqnarray} Dermed har vi at \[ \sum_{i=1}^n x_i^2 = S_{xx} + n\bar{x}^2 \hspace{1.0cm}\text{og}\hspace{1.0cm} \sum_{i=1}^n x_i y_i = S_{xy} + n \bar{x}\bar{y}. \] Setter vi disse utrykkene, samt utrykkene vi tidligere fant for summene over \(x_i\)'ene og over \(y_i\)'ene inn i de to ligningene som skal løses for å finne \(\beta_0\) og \(\beta_1\) får vi at de to ligningene nå kan skrives på formen \[ n\beta_0 +\beta_1 n\bar{x} = n\bar{y} \hspace{1.0cm}\text{og}\hspace{1.0cm} \beta_0n\bar{x} +\beta_1 \left( S_{xx}+n\bar{x}^2\right) = S_{xy}+n\bar{x}\bar{y}. \] For å løse disse to ligningene kan vi for eksempel starte med å løse den første ligningen med hensyn på \(\beta_0\), \[ \beta_0 = \bar{y}-\beta_1 \bar{x}, \] og sette dette utrykket for \(\beta_0\) inn i den andre ligningen, \[ \left(\bar{y}-\beta_1 \bar{x}\right) n\bar{x} + \beta_1 \left( S_{xx}+n\bar{x}^2\right) = S_{xy}+n\bar{x}\bar{y}. \] Hvis man så ganger ut de to parentesene i denne ligningen, rydder opp og løser ligningen ved hensyn på \(\beta_1\), får man at \[ \beta_1 = \frac{S_{xy}}{S_{xx}} = \frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n (x_i-\bar{x})^2} \] Det er vanlig å omskrive uttrykket i telleren. Ved å gange ut den siste parentesen i uttrykket for \(S_{xy}\) får man at \begin{eqnarray} S_{xy} &=& \sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y}) = \sum_{i=1}^n \left[ (x_i-\bar{x})y_i - (x_i-\bar{x})\bar{y}\right] = \sum_{i=1}^n (x_i-\bar{x})y_i - \bar{y}\sum_{i=1}^n (x_i-\bar{x})\\ &=& \sum_{i=1}^n (x_i-\bar{x})y_i - \bar{y}\left[ \sum_{i=1}^n x_i - n\bar{x}\right] = \sum_{i=1}^n (x_i-\bar{x})y_i, \end{eqnarray} der vi i den siste overgangen har benyttet at \(\sum_{i=1}^n x_i = n\bar{x}\) som vi utledet over. Vi har dermed at \[ \beta_1 = \frac{\sum_{i=1}^n (x_i-\bar{x})y_i}{\sum_{i=1}^n (x_i-\bar{x})^2} \hspace{1.0cm}\text{og}\hspace{1.0cm} \beta_0 = \bar{y} - \beta_1 \bar{x}, \] og ved å løse den tredje ligningen i ligningssystemet vårt med hensyn på den siste parameteren \(\sigma^2\) får vi at \[ \sigma^2 = \frac{1}{n}\sum_{i=1}^n (y_i-\beta_0-\beta_1x_i)^2. \] Sannsynlighetsmaksimeringsestimatorene blir dermed \[ \widehat{\beta}_1 = \frac{\sum_{i=1}^n (x_i-\bar{x})Y_i}{\sum_{i=1}^n (x_i-\bar{x})^2}, \hspace{1.0cm} \widehat{\beta}_0 = \bar{Y} - \widehat{\beta}_1 \bar{x}\hspace{1.0cm}\text{og}\hspace{1.0cm} \widehat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^n \left(Y_i-\widehat{\beta}_0-\widehat{\beta}_1x_i\right)^2, \]

Sannsynlighetsmaksimeringsestimatorene blir \[ \widehat{\beta}_1 = \frac{\sum_{i=1}^n (x_i-\bar{x})Y_i}{\sum_{i=1}^n (x_i-\bar{x})^2}, \hspace{1.0cm} \widehat{\beta}_0 = \bar{Y} - \widehat{\beta}_1 \bar{x}\hspace{1.0cm}\text{og}\hspace{1.0cm} \widehat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^n \left(Y_i-\widehat{\beta}_0-\widehat{\beta}_1x_i\right)^2, \] der \(\bar{x}=\frac{1}{n}\sum_{i=1}^n x_i\) og \(\bar{Y}=\frac{1}{n}\sum_{i=1}^n Y_i\). Egenskapene til disse estimatorene blir diskutert lenger ned på denne temasiden, under "Egenskaper til estimatorene".

Relevante kapitler: 11.2, 9.14.
Relevante videoer:
\(\ \ \ \)Eksamen mai 2016, oppgave 2b (17:05, Mette Langaas)
Relevante oppgaver:
\(\ \ \ \)Eksamen august 2016, oppgave 3c (b,n,e).
\(\ \ \ \)Eksamen desember 2013, oppgave 4a (b,n,e).
\(\ \ \ \)Eksamen desember 2010, oppgave 4b (b,n,e).
\(\ \ \ \)Eksamen mai 2009, oppgave 3a (n).


Egenskaper til estimatorene

Egenskaper til estimatorene

Utgangspunkt: Vi ønsker her å bestemme egenskapene til estimatorene \[ \widehat{\beta}_1 = \frac{\sum_{i=1}^n (x_i-\bar{x})Y_i}{\sum_{i=1}^n (x_i-\bar{x})^2}, \hspace{1.0cm} \widehat{\beta}_0 = \bar{Y} - \widehat{\beta}_1 \bar{x}\hspace{1.0cm}\text{og}\hspace{1.0cm} \widehat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^n \left(Y_i-\widehat{\beta}_0-\widehat{\beta}_1x_i\right)^2. \] Estimatorene \(\widehat{\beta}_0\) og \(\widehat{\beta}_1\) kan fremkomme både ved å benytte minste kvadraters metode og som sannsynlighetsmaksimeringsestimatorer. Ved å ta utgangspunkt i modellen spesifisert under "Modellantagelser" lenger opp på denne temasiden og ved å benytte regneregler for forventning og varians skal vi starte med å finne forventningsverdi og varians for \(\widehat{\beta}_0\) og \(\widehat{\beta}_1\). Deretter skal vi, slik det gjøres når sannsynlighetsmaksimeringsestimatorene utledes, anta at \(Y_i\)'ene er uavhengige og normalfordelte og finne hvilken sannsynlighetsfordeling \(\widehat{\beta}_0\), \(\widehat{\beta}_1\) og \(\widehat{\sigma}^2\) da har.

Kommentar: Når vi skal anvende regneregler for forventingsverdi og varians til å finne \(\mbox{E}\left[\widehat{\beta}_1\right]\), \(\mbox{E}\left[\widehat{\beta}_0\right]\), \(\mbox{Var}\left[\widehat{\beta}_1\right]\) og \(\mbox{Var}\left[\widehat{\beta}_0\right]\) er det viktig å huske på at vi i modellen har valgt å betrakte \(x_i\)'ene som konstanter eller tall, ikke som stokastiske variabler. Funksjoner av \(x_i\)'ene blir dermed også konstanter. For eksempel er \(\bar{x}\) og \(1/(\sum_{i=1}^n (x_i-\bar{x})^2)\) funksjoner av \(x_i\)'ene, og dermed konstanter.

Forventningsverdi til \(\widehat{\beta}_1\): Ved å benytte at konstanter kan settes utenfor forventningsoperatoren \(\mbox{E}\), at summetegn kan settes utenfor \(\text{E}\) og modellantagelsen \(\mbox{E}[Y_i]=\beta_0+\beta_1x_i\) får vi at \begin{eqnarray} \mbox{E}\left[\widehat{\beta}_1\right] &=& \mbox{E}\left[ \frac{\sum_{i=1}^n (x_i-\bar{x})Y_i}{\sum_{i=1}^n (x_i-\bar{x})^2}\right]\\ &=& \frac{1}{\sum_{i=1}^n (x_i-\bar{x})^2} \mbox{E}\left[ \sum_{i=1}^n (x_i-\bar{x})Y_i\right]\\ &=& \frac{1}{\sum_{i=1}^n (x_i-\bar{x})^2} \sum_{i=1}^n \mbox{E}\left[ (x_i-\bar{x})Y_i\right]\\ &=& \frac{1}{\sum_{i=1}^n (x_i-\bar{x})^2} \sum_{i=1}^n (x_i-\bar{x}) \mbox{E}\left[ Y_i\right]\\ &=& \frac{1}{\sum_{i=1}^n (x_i-\bar{x})^2} \sum_{i=1}^n (x_i-\bar{x}) (\beta_0+\beta_1x_i)\\ &=& \frac{1}{\sum_{i=1}^n (x_i-\bar{x})^2} \sum_{i=1}^n \left[ (x_i-\bar{x})\beta_0+ (x_i-\bar{x})\beta_1x_i\right]\\ &=& \frac{1}{\sum_{i=1}^n (x_i-\bar{x})^2} \left[ \beta_0\sum_{i=1}^n (x_i-\bar{x})+ \beta_1\sum_{i=1}^n (x_i-\bar{x})x_i\right]\\ \end{eqnarray} Siden \(\bar{x}=\frac{1}{n}\sum_{i=1}^n x_i\) har vi at \[ \sum_{i=1}^n (x_i-\bar{x}) = \sum_{i=1}^n x_i - \sum_{i=1}^n \bar{x} = \sum_{i=1}^n x_i - n\bar{x} = \sum_{i=1}^n x_i - n\, \frac{1}{n}\sum_{i=1}^n x_i = 0 \] og dermed \[ \mbox{E}\left[\widehat{\beta}_1\right] = \frac{1}{\sum_{i=1}^n (x_i-\bar{x})^2} \, \beta_1\sum_{i=1}^n (x_i-\bar{x})x_i = \beta_1 \frac{\sum_{i=1}^n (x_i-\bar{x})x_i}{\sum_{i=1}^n (x_i-\bar{x})^2}. \] Dessuten har vi at \[ \sum_{i=1}^n (x_i-\bar{x})^2 = \sum_{i=1}^n (x_i-\bar{x})(x_i-\bar{x}) = \sum_{i=1}^n \left[ (x_i-\bar{x})x_i - (x_i-\bar{x})\bar{x}\right] = \sum_{i=1}^n (x_i-\bar{x})x_i - \bar{x}\sum_{i=1} (x_i-\bar{x}) = \sum_{i=1}^n (x_i-\bar{x})x_i \] der vi i den siste overgangen har benyttet at \(\sum_{i=1}^n (x_i-\bar{x})=0\) som vi akkurat viste. Dermed har vi at \[ \mbox{E}\left[\widehat{\beta}_1\right] = \beta_1 \] slik at \(\widehat{\beta}_1\) er en forventningsrett estimator for \(\beta_1\).

Forventningsverdi til \(\widehat{\beta}_0\): Ved å benytte at konstanter kan settes utenfor forventningsoperatoren \(\mbox{E}\), at forventningsverdien til en sum er lik summen av forventningsverdiene, at \(\widehat{\beta}_1\) er forventningsrett og modellantagelsen \(\mbox{E}[Y_i]=\beta_0+\beta_1x_i\) får vi at \begin{eqnarray} \mbox{E}\left[\widehat{\beta}_0\right] &=& \mbox{E}\left[\bar{Y} - \widehat{\beta}_1 \bar{x}\right]\\ &=& \mbox{E}\left[\bar{Y}\right] - \mbox{E}\left[\widehat{\beta}_1 \bar{x}\right]\\ &=& \mbox{E}\left[\frac{1}{n}\sum_{i=1}^n Y_i\right] - \mbox{E}\left[\widehat{\beta}_1\right]\bar{x}\\ &=& \frac{1}{n} \mbox{E}\left[\sum_{i=1}^n Y_i\right] - \beta_1\bar{x}\\ &=& \frac{1}{n} \sum_{i=1}^n \mbox{E}\left[Y_i\right] - \beta_1\bar{x}\\ &=& \frac{1}{n} \sum_{i=1}^n (\beta_0 +\beta_1x_i) - \beta_1\bar{x}\\ &=& \frac{1}{n} \left[n \beta_0 +\beta_1\sum_{i=1}^n x_i\right] - \beta_1\bar{x}\\ &=& \frac{1}{n}\cdot n \beta_0 +\beta_1\left[ \frac{1}{n}\sum_{i=1}^n x_i - \bar{x}\right]\\ &=& \beta_0, \end{eqnarray} der vi i den siste overgangen har benyttet at \(\bar{x}=\frac{1}{n}\sum_{i=1}^n\). Dermed er \(\widehat{\beta}_0\) en forventningsrett estimator for \(\beta_0\).

Varians til \(\widehat{\beta}_1\): Ved å benytte at konstanter som settes utenfor variansoperatoren \(\mbox{Var}\) må kvadreres, at \(Y_i\)'ene er uavhengige og at variansen av en sum av uavhengige stokastiske variabler er lik summen av variansene, samt modellantagelsen \(\mbox{Var}[Y_i]=\sigma^2\) får vi \begin{eqnarray} \mbox{Var}\left[\widehat{\beta}_1\right] &=& \mbox{Var}\left[\frac{\sum_{i=1}^n (x_i-\bar{x})Y_i}{\sum_{i=1}^n (x_i-\bar{x})^2}\right]\\ &=& \left(\frac{1}{\sum_{i=1}^n (x_i-\bar{x})^2}\right)^2 \mbox{Var}\left[\sum_{i=1}^n (x_i-\bar{x})Y_i\right]\\ &=& \frac{1}{\left(\sum_{i=1}^n (x_i-\bar{x})^2\right)^2} \sum_{i=1}^n \mbox{Var}\left[ (x_i-\bar{x})Y_i\right]\\ &=& \frac{1}{\left(\sum_{i=1}^n (x_i-\bar{x})^2\right)^2} \sum_{i=1}^n (x_i-\bar{x})^2 \mbox{Var}\left[ Y_i\right]\\ &=& \frac{1}{\left(\sum_{i=1}^n (x_i-\bar{x})^2\right)^2} \sum_{i=1}^n (x_i-\bar{x})^2 \sigma^2\\ &=& \frac{\sigma^2 \sum_{i=1}^n (x_i-\bar{x})^2}{\left(\sum_{i=1}^n (x_i-\bar{x})^2\right)^2} \\ &=& \frac{\sigma^2}{\sum_{i=1}^n (x_i-\bar{x})^2} \\ \end{eqnarray}

Varians til \(\widehat{\beta}_0\): Når vi skal finne variansen til \(\widehat{\beta}_0\) er det viktig å huske på at vi ikke vet om \(\bar{Y}\) og \(\widehat{\beta}_1\) er uavhengige eller avhengige. Vi må dermed regne som om disse er avhengige. Vi får dermed \begin{eqnarray} \mbox{Var}\left[\widehat{\beta}_0\right] &=& \mbox{Var}\left[\bar{Y} - \widehat{\beta}_1 \bar{x}\right]\\ &=& \mbox{Var}\left[\bar{Y} + (- \widehat{\beta}_1 \bar{x})\right]\\ &=& \mbox{Var}\left[\bar{Y}\right] + \mbox{Var}\left[- \widehat{\beta}_1 \bar{x}\right] + 2\mbox{Cov}\left[\bar{Y},- \widehat{\beta}_1 \bar{x}\right]\\ &=& \mbox{Var}\left[\bar{Y}\right] + \left(-\bar{x}\right)^2 \mbox{Var}\left[\widehat{\beta}_1\right] + 2\cdot \left(-\bar{x}\right) \mbox{Cov}\left[ \bar{Y},\widehat{\beta}_1\right]\\ &=& \mbox{Var}\left[\bar{Y}\right] + \bar{x}^2 \, \mbox{Var}\left[\widehat{\beta}_1\right] - 2\, \bar{x}\, \mbox{Cov}\left[ \bar{Y},\widehat{\beta}_1\right], \end{eqnarray} der vi har benyttet at konstanter kan settes utenfor kovariansoperatoren \(\mbox{Cov}\). Variansen \(\mbox{Var}\left[\widehat{\beta}_1\right]\) har vi allerede funnet, så vi trenger nå å finne \(\mbox{Var}\left[\bar{Y}\right]\) og \(\mbox{Cov}\left[\bar{Y},\widehat{\beta}_1\right]\). Vi starter med den første av disse og siden \(Y_i\)'ene er uavhengige får vi \[ \mbox{Var}\left[\bar{Y}\right] = \mbox{Var}\left[ \frac{1}{n}\sum_{i=1}^n Y_i\right] = \left(\frac{1}{n}\right)^2 \mbox{Var}\left[ \sum_{i=1}^n Y_i\right] = \frac{1}{n^2} \sum_{i=1}^n\mbox{Var}\left[ Y_i\right] = \frac{1}{n^2} \sum_{i=1}^n \sigma^2 = \frac{n\sigma^2}{n^2} = \frac{\sigma^2}{n}. \] For å finne \(\mbox{Cov}\left[\bar{Y},\widehat{\beta}_1\right]\) må vi først sette inn uttrykkene vi har for \(\bar{Y}\) og \(\widehat{\beta}_1\) og deretter benytte regnereglene vi har for kovarians. Disse regnereglene er diskutert på temasiden med regneregler for forventning og varians og sier at konstanter i begge argumentene kan settes utenfor og at også summetegn i begge argumentene kan settes utenfor. Vi får da \begin{eqnarray} \mbox{Cov}\left[\bar{Y},\widehat{\beta}_1\right] &=& \mbox{Cov}\left[\frac{1}{n}\sum_{i=1}^n Y_i, \frac{\sum_{i=1}^n (x_i-\bar{x})Y_i}{\sum_{i=1}^n (x_i-\bar{x})^2}\right]\\ &=& \frac{1}{n} \mbox{Cov}\left[\sum_{i=1}^n Y_i, \frac{\sum_{i=1}^n (x_i-\bar{x})Y_i}{\sum_{i=1}^n (x_i-\bar{x})^2}\right]\\ &=& \frac{1}{n} \cdot \frac{1}{\sum_{i=1}^n (x_i-\bar{x})^2} \mbox{Cov}\left[\sum_{i=1}^n Y_i, \sum_{i=1}^n (x_i-\bar{x})Y_i\right]. \end{eqnarray} Før vi setter summetegnene utenfor må vi passe på å benytte ulike summevariabler i de ulike summene, \begin{eqnarray} \mbox{Cov}\left[\bar{Y},\widehat{\beta}_1\right] &=& \frac{1}{n} \cdot \frac{1}{\sum_{i=1}^n (x_i-\bar{x})^2} \mbox{Cov}\left[\sum_{j=1}^n Y_j, \sum_{k=1}^n (x_k-\bar{x})Y_k\right]\\ &=& \frac{1}{n\left(\sum_{i=1}^n (x_i-\bar{x})^2\right)} \sum_{j=1}^n \sum_{k=1}^n \mbox{Cov}\left[ Y_j,(x_k-\bar{x})Y_k\right]\\ &=& \frac{1}{n\left(\sum_{i=1}^n (x_i-\bar{x})^2\right)} \sum_{j=1}^n \sum_{k=1}^n (x_k-\bar{x})\, \mbox{Cov}\left[ Y_j,Y_k\right]. \end{eqnarray} I modellen har vi antatt at \(Y_i\)'ene er uavhengige og det betyr at \(\mbox{Cov}[Y_j,y_k]=0\) for \(j\neq k\). Den innerste summen i utrykket over har dermed kun et ledd som er forskjellig fra null, nemlig for \(k=j\). Dobbeltsummen blir dermed redusert til en enkeltsum. Dessuten har man at \(\mbox{Cov}[Y_j,Y_j]=\mbox{Var}[Y_j]=\sigma^2\) og vi får \begin{eqnarray} \mbox{Cov}\left[\bar{Y},\widehat{\beta}_1\right] &=& \frac{1}{n\left(\sum_{i=1}^n (x_i-\bar{x})^2\right)} \sum_{j=1}^n (x_j-\bar{x})\, \mbox{Cov}\left[ Y_j,Y_j\right]\\ &=& \frac{1}{n\left(\sum_{i=1}^n (x_i-\bar{x})^2\right)} \sum_{j=1}^n (x_j-\bar{x}) \sigma^2\\ &=& \frac{1}{n\left(\sum_{i=1}^n (x_i-\bar{x})^2\right)} \sigma^2 \sum_{j=1}^n (x_j-\bar{x})\\ &=& 0, \end{eqnarray} der vi i den siste overgangen har benyttet \(\sum_{j=1}^n (x_j-\bar{x}) = 0\) som vi viste da vi regnet ut forventingsverdien til \(\widehat{\beta}_1\) lenger oppe på denne siden.

Ved å sette det vi nå har funnet inn i utrykket vi hadde for \(\mbox{Var}\left[\widehat{\beta}_0\right]\) får vi dermed at \begin{eqnarray} \mbox{Var}\left[\widehat{\beta}_0\right] &=& \mbox{Var}\left[\bar{Y}\right] + \bar{x}^2 \, \mbox{Var}\left[\widehat{\beta}_1\right] - 2\, \bar{x}\, \mbox{Cov}\left[ \bar{Y},\widehat{\beta}_1\right]\\ &=& \frac{\sigma^2}{n} + \bar{x}^2 \cdot \frac{\sigma^2}{\sum_{i=1}^n (x_i-\bar{x})^2} \\ &=& \sigma^2 \left( \frac{1}{n} + \frac{\bar{x}^2}{\sum_{i=1}^n (x_i-\bar{x})^2}\right). \end{eqnarray} Ved å sette de to leddene inni parentesen på felles brøkstrek og deretter gange ut kvadratuttrykket over brøkstrek får vi at \begin{eqnarray} \mbox{Var}\left[\widehat{\beta}_0\right] &=& \sigma^2 \, \frac{\sum_{i=1}^n (x_i-\bar{x})^2 + n\bar{x}^2}{n\sum_{i=1}^n (x_i-\bar{x})^2}\\ &=& \sigma^2\, \frac{\sum_{i=1}^n x_i^2 - 2\bar{x}\sum_{i=1}^n x_i + n\bar{x}^2 + n\bar{x}^2}{n\sum_{i=1}^n (x_i-\bar{x})^2}\\ &=& \sigma^2\, \frac{\sum_{i=1}^n x_i^2 - 2\bar{x}\cdot n\bar{x} + n\bar{x}^2+n\bar{x}^2}{n\sum_{i=1}^n (x_i-\bar{x})^2}\\ &=& \frac{\sigma^2 \sum_{i=1}^n x_i^2}{n\sum_{i=1}^n (x_i-\bar{x})^2}, \end{eqnarray} der vi nok en gang har benyttet at \(\sum_{i=1}^n x_i = n\bar{x}\).

Sannsynlighetsfordeling for \(\widehat{\beta}_1\): Utrykket vi har for \(\widehat{\beta}_1\) er \[ \widehat{\beta}_1 = \frac{\sum_{i=1}^n (x_i-\bar{x})Y_i}{\sum_{i=1}^n (x_i-\bar{x})^2} \] Vi ser her at \(\widehat{\beta}_1\) er en lineær funksjon av \(Y_i\)'ene. Mer detaljert ser vi dette ved at vi kan skrive \[ \widehat{\beta}_1 = \frac{\sum_{i=1}^n (x_i-\bar{x})Y_i}{\sum_{k=1}^n (x_k-\bar{x})^2} = \sum_{i=1}^n \frac{x_i-\bar{x}}{\sum_{k=1}^n (x_k-\bar{x})^2} Y_i = \sum_{i=1}^n a_i Y_i \hspace{1.0cm}der\hspace{1.0cm} a_i = \frac{x_i-\bar{x}}{\sum_{k=1}^n (x_k-\bar{x})^2} \] for \(i=1,2,\ldots,n\) er konstanter. Siden vi i modellen antar at \(Y_i\)'ene er uavhengige og normalfordelte har vi dermed at \(\widehat{\beta}_1\) er en lineær funksjon av uavhengige og normalfordelte variabler. Som diskutert under "Sentralgrenseteoremet og normalfordeling" på temasiden for Viktige kontinuerlige sannsynlighetsfordelinger vet vi at en lineær funksjon av uavhengige normalfordelte stokastiske variabler alltid er normalfordelt. Dermed er \(\widehat{\beta}_1\) normalfordelt og ved å bruke forventingsverdien og variansen regnet ut over har vi at \[ \widehat{\beta}_1 \sim N\left( \beta_1, \frac{\sigma^2}{\sum_{i=1}^n (x_i-\bar{x})^2} \right). \]

Sannsynlighetsfordeling for \(\widehat{\beta}_0\): Utrykket vi har for \(\widehat{\beta}_0\) er \[ \widehat{\beta}_0 = \bar{Y} - \widehat{\beta}_1 \bar{x}. \] Vi ser her at \(\widehat{\beta}_0\) er en lineær funksjon av \(Y_i\)'ene. Mer detaljert ser vi dette ved at vi ved å sette inn uttrykkene vi har for \(\bar{Y}\) og \(\widehat{\beta}_1\) får at \begin{eqnarray} \widehat{\beta}_0 &=& \frac{1}{n}\sum_{i=1}^n Y_i + \left[ \frac{\sum_{i=1}^n (x_i-\bar{x})Y_i}{\sum_{k=1}^n (x_k-\bar{x})^2}\right] \bar{x}\\ &=& \frac{1}{n}\sum_{i=1}^n Y_i + \sum_{i=1}^n \frac{\bar{x}(x_i-\bar{x})}{\sum_{k=1}^n (x_k-\bar{x})^2} Y_i\\ &=& \sum_{i=1}^n \left[ \frac{1}{n} + \frac{\bar{x}(x_i-\bar{x})}{\sum_{k=1}^n (x_k-\bar{x})^2}\right] Y_i = \sum_{i=1}^n b_iY_i, \end{eqnarray} der \[ b_i = \frac{1}{n} + \frac{\bar{x}(x_i-\bar{x})}{\sum_{k=1}^n (x_k-\bar{x})^2} \] for \(i=1,2,\ldots,n\) er konstanter. Siden vi i modellen har antatt at \(Y_i\)'ene er uavhengige og normalfordelte har vi dermed at \(\widehat{\beta}_0\) er en lineær funksjon av uavhengige og normalfordelte variabler. Som diskutert under "Sentralgrenseteoremet og normalfordeling" på temasiden for Viktige kontinuerlige sannsynlighetsfordelinger vet vi at en lineær funksjon av uavhengige normalfordelte stokastiske variabler alltid er normalfordelt. Dermed er \(\widehat{\beta}_0\) normalfordelt og ved å bruke forventingsverdien og variansen regnet ut over har vi at \[ \widehat{\beta}_0 \sim N\left( \beta_0, \frac{\sigma^2 \sum_{i=1}^n x_i^2}{n\sum_{i=1}^n (x_i-\bar{x})^2}\right). \]

Sannsynlighetsfordeling for \(\widehat{\sigma}^2\): Utrykket vi har for sannsynlighetsmaksimeringsestimatoren \(\widehat{\sigma}^2\) er \[ \widehat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^n \left(Y_i-\widehat{\beta}_0-\widehat{\beta}_1x_i\right)^2. \] Det kan vises at \[ \sum_{i=1}^n \frac{\left( Y_i - \widehat{\beta}_0-\widehat{\beta}_1x_i\right)^2}{\sigma^2} \] er \(\chi^2\)-fordelt med \(n-2\) frihetsgrader. Dermed har vi også at \[ \frac{n\widehat{\sigma}^2}{\sigma^2} \sim \chi^2_{n-2}, \] og siden forventningsverdien i en \(\chi^2\)-fordeling er lik antall frihetsgrader har vi spesielt at \[ \mbox{E}\left[ \frac{n\widehat{\sigma}^2}{\sigma^2}\right] = n-2\hspace{1.0cm}\Rightarrow\hspace{1.0cm} \frac{n}{\sigma^2}\mbox{E}\left[ \widehat{\sigma}^2\right] = n-2\hspace{1.0cm}\Rightarrow\hspace{1.0cm} \mbox{E}\left[ \widehat{\sigma}^2\right] = \frac{n-2}{n}\, \sigma^2.\] Vi ser dermed at sannsynlighetsmaksimeringsestimatoren \(\widehat{\sigma}^2\) ikke er forventningsrett, den er forventningsskjev. Det er derfor ikke vanlig å benytte \(\widehat{\sigma}^2\) som estimator for \(\sigma^2\). Man benytter i stedet estimatoren \[ S^2 = \frac{n}{n-2}\, \widehat{\sigma}^2 = \frac{1}{n-2}\sum_{i=1}^n \left(Y_i-\widehat{\beta}_0-\widehat{\beta}_1x_i\right)^2. \] Denne estimatoren er forventingsrett, \[ \mbox{E}\left[S^2\right] = \mbox{E}\left[ \frac{n}{n-2}\, \widehat{\sigma}^2\right] = \frac{n}{n-2}\mbox{E}\left[ \widehat{\sigma}^2\right] = \frac{n}{n-2}\cdot \frac{n-2}{n}\, \sigma^2 = \sigma^2, \] og ved å benytte resultatet over får vi for denne estimatoren at \[ \frac{(n-2)S^2}{\sigma^2} \sim \chi^2_{n-2}. \]

Relevante kapitler: 11.4.
Relevante videoer:
\(\ \ \ \)Enkel lineær regresjon: Stigningstallet (49:04, Mette Langaas)
Relevante oppgaver:
\(\ \ \ \)Eksamen desember 2016, oppgave 4b (b,n,e).
\(\ \ \ \)Eksamen august 2016, oppgave 3b og d (b,n,e).
\(\ \ \ \)Eksamen desember 2014, oppgave 3d (b,n,e).
\(\ \ \ \)Eksamen august 2013, oppgave 3a (b,n,e).
\(\ \ \ \)Eksamen mai 2012, oppgave 4b (b,n,e).
\(\ \ \ \)Eksamen desember 2011, oppgave 3a (b,n,e).
\(\ \ \ \)Eksamen juni 2011, oppgave 2c (b,n,e).


Inferens for regresjonsparametrene

Inferens for regresjonsparametrene

Innledning: Når vi skal utlede et konfidensintervall eller bestemme oss for en testobservator i en hypotesetestsituasjon må man ta utgangspunkt i en størrelse som kun er en funksjon av de stokastiske variablene og den parameteren man lage konfidensintervall for eller gjøre hypotesetest om. I en regresjonsmodell er det mest aktuelt å gjøre inferens (utlede konfidensintervall eller utføre en hypotesetest) om \(\widehat{\beta}_0\) og \(\widehat{\beta}_1\), og vanligvis vil da variansen \(\sigma^2\) også ha en ukjent verdi. Vi vil derfor her kun se på hvilke størrelser man tar utgangspunkt i for å gjøre inferens i en slik situasjon.

Inferens om \(\widehat{\beta}_1\): Vi har tidligere funnet at \[ \widehat{\beta}_1 \sim N\left(\beta_1,\frac{\sigma^2}{\sum_{i=1}^n (x_i-\bar{x})^2}\right). \] Den tilhørende standardiserte variabelen blir dermed \[ Z = \frac{\widehat{\beta}_1-\beta_1}{\sqrt{\frac{\sigma^2}{\sum_{i=1}^n (x_i-\bar{x})^2}}} \sim N(0,1). \] Dersom variansen \(\sigma^2\) har en kjent verdi kan man ta utgangspunkt i \(Z\) for å utlede konfidensintervall eller konstruere en hypotesetest for \(\beta_1\). Mer typisk er det at verdien til \(\sigma^2\) også er ukjent og da vil man erstatte \(\sigma^2\) i utrykket for \(Z\) med den tilhørende forventningsrette estimatoren \[ S^2 = \frac{1}{n-2}\sum_{i=1}^n (Y_i - \widehat{\beta}_0-\widehat{\beta}_1x_i)^2. \] Man vil dermed ta utgangspunkt i \[ T = \frac{\widehat{\beta}_1-\beta_1}{\sqrt{\frac{S^2}{\sum_{i=1}^n (x_i-\bar{x})^2}}} \] som man kan vise blir \(t\)-fordelt med \(n-2\) frihetsgrader. For å se at \(T\) blir \(t\)-fordelt må man observere at denne kan skrives på formen \[ T = \frac{\widehat{\beta}_1-\beta_1}{\sqrt{\frac{S^2}{\sum_{i=1}^n (x_i-\bar{x})^2}}} = \frac{\frac{\widehat{\beta}_1-\beta_1}{\sqrt{\frac{\sigma^2}{\sum_{i=1}^n (x_i-\bar{x})^2}}}}{\sqrt{\frac{\frac{(n-2)S^2}{\sigma^2}}{n-2}}} = \frac{Z}{\sqrt{\frac{V}{n-2}}}, \] der \(Z\sim N(0,1)\) er som definert over og \[ V = \frac{(n-2)S^2}{\sigma^2} \sim \chi_{n-2}^2. \] Merk at sannsynlighetsfordelingen til \(V\) er diskutert under «Egenskaper til estimatorene» lenger oppe på denne temasiden. Det kan dessuten vises at \(Z\) og \(V\) er uavhengige. Når \(T\) kan utrykkes ved \(Z\) og \(V\) som gitt over og \(Z\) og \(V\) er uavhengige vet man at \(T\) er \(t\)-fordelt med samme antall frihetsgrader som \(V\), dvs. \[ \frac{\widehat{\beta}_1-\beta_1}{\sqrt{\frac{S^2}{\sum_{i=1}^n (x_i-\bar{x})^2}}} \sim t^2_{n-2}. \] Ut fra dette kan man utlede konfidensintervall for \(\widehat{\beta}_1\) og konstuere hypotesetester for \(\beta_1\) som diskutert på henholdsvis temasiden med regneprosedyrer for konfidensintervall og prediksjonsintervall og temasiden om hypotesetesting.

Inferens om \(\widehat{\beta}_0\): Vi har tidligere funnet at \[ \widehat{\beta}_0 \sim N\left(\beta_0,\frac{\sigma^2 \sum_{i=1}^n x_i^2}{n\sum_{i=1}^n (x_i-\bar{x})^2}\right). \] Den tilhørende standardiserte variabelen blir dermed \[ Z = \frac{\widehat{\beta}_0-\beta_0}{\sqrt{\frac{\sigma^2 \sum_{i=1}^n x_i^2}{n\sum_{i=1}^n (x_i-\bar{x})^2}}} \sim N(0,1). \] Dersom variansen \(\sigma^2\) har en kjent verdi kan man ta utgangspunkt i \(Z\) for å utlede konfidensintervall eller konstruere en hypotesetest for \(\beta_0\). Mer typisk er det at verdien til \(\sigma^2\) også er ukjent og da vil man tilsvarende som for \(\beta_1\) erstatte \(\sigma^2\) i utrykket for \(Z\) med den tilhørende forventningsrette estimatoren \[ S^2 = \frac{1}{n-2}\sum_{i=1}^n (Y_i - \widehat{\beta}_0-\widehat{\beta}_1x_i)^2. \] Man vil dermed ta utgangspunkt i \[ T = \frac{\widehat{\beta}_0-\beta_0}{\sqrt{\frac{S^2 \sum_{i=1}^n x_i^2}{n\sum_{i=1}^n (x_i-\bar{x})^2}}} \] som man kan vise blir \(t\)-fordelt med \(n-2\) frihetsgrader. For å se at \(T\) blir \(t\)-fordelt må man observere at denne kan skrives på formen \[ T = \frac{\widehat{\beta}_0-\beta_0}{\sqrt{\frac{S^2 \sum_{i=1}^n x_i^2}{n\sum_{i=1}^n (x_i-\bar{x})^2}}} = \frac{\frac{\widehat{\beta}_0-\beta_0}{\sqrt{\frac{\sigma^2 \sum_{i=1}^n x_i^2}{n\sum_{i=1}^n (x_i-\bar{x})^2}}}}{\sqrt{\frac{\frac{(n-2)S^2}{\sigma^2}}{n-2}}} = \frac{Z}{\sqrt{\frac{V}{n-2}}}, \] der \(Z\sim N(0,1)\) er som definert som over og \[ V = \frac{(n-2)S^2}{\sigma^2} \sim \chi_{n-2}^2. \] Merk at sannsynlighetsfordelingen til \(V\) er diskutert under «Egenskaper til estimatorene» lenger oppe på denne temasiden. Det kan dessuten vises at \(Z\) og \(V\) er uavhengige. Når \(T\) kan utrykkes ved \(Z\) og \(V\) som gitt over og \(Z\) og \(V\) er uavhengige vet man at \(T\) er \(t\)-fordelt med samme antall frihetsgrader som \(V\), dvs. \[ \frac{\widehat{\beta}_0-\beta_0}{\sqrt{\frac{S^2 \sum_{i=1}^n x_i^2}{n\sum_{i=1}^n (x_i-\bar{x})^2}}} \sim t^2_{n-2}. \] Ut fra dette kan man utlede konfidensintervall for \(\widehat{\beta}_0\) og konstuere hypotesetester for \(\beta_0\) som diskutert på henholdsvis temasiden med regneprosedyrer for konfidensintervall og prediksjonsintervall og temasiden om hypotesetesting.

Relevante kapitler: 11.5.
Relevante videoer:
\(\ \ \ \)Enkel lineær regresjon: Stigningstallet (49:04, Mette Langaas)
Relevante oppgaver:
\(\ \ \ \)Eksamen desember 2016, oppgave 4b (b,n,e).
\(\ \ \ \)Eksamen august 2016, oppgave 3d (b,n,e).
\(\ \ \ \)Eksamen desember 2014, oppgave 3d (b,n,e).
\(\ \ \ \)Eksamen august 2013, oppgave 3b (b,n,e).
\(\ \ \ \)Eksamen mai 2013, oppgave 4a (b,n,e).
\(\ \ \ \)Eksamen desember 2012, oppgave 3b (b,n,e).
\(\ \ \ \)Eksamen desember 2011, oppgave 3b (b,n,e).
\(\ \ \ \)Eksamen juni 2011, oppgave 2c og d (b,n,e).
\(\ \ \ \)Eksamen desember 2010, oppgave 4c (b,n,e).
\(\ \ \ \)Eksamen mai 2009, oppgave 3b (n).


Prediksjon og prediksjonsintervall i en enkel lineær regresjonsmodell

Prediksjon og prediksjonsintervall i en enkel lineær regresjonsmodell

Innledning: Prediksjon i en regresjonssituasjon vil si at vi basert på observasjonsparene \((x_1,y_1),(x_2,y_2),\ldots,(x_n,y_n)\) ønsker å predikere eller forutsi hvilken verdi \(y_0\) man (en gang i fremtiden) vil observere eller måle dersom vi velger å gjøre en observasjon med \(x=x_0\). Alternativt kan man lage et prediksjonsintervall for den samme størrelsen. Her diskuterer vi hvordan det er naturlig å predikere \(y_0\) og vi benytter prosedyren beskrevet på temasiden med regneprosedyrer for konfidenintervall og prediksjonsintervall til å utlede et prediksjonsintervall for en slik fremtidig observasjon \(y_0\).

Prediksjon: Når vi skal predikere en fremtidig observasjon \(y_0\) tar vi utgangspunkt i den estimerte regresjonslinja \(y=\widehat{\beta}_0+\widehat{\beta}_1x\) slik at predikert verdi blir \[ \widehat{y}_0 = \widehat{\beta}_0+\widehat{\beta}_1x_0. \] I figuren under er dette illustrert for \(x_0=2.4\). De observerte punktene er vist i rødt og estimerte regresjonslinje er vist i blått.

Prediksjonsintervall: For å utlede et prediksjonsintervall for en fremtidig observasjon \(y_0\) betrakter vi denne som en realisasjon av en tilsvarende stokastisk variabel \(Y_0\). Modellantagelsene gir oss at \(Y_0\) er normalfordelt med forventingsverdi \(\mbox{E}[Y_0] = \beta_0+\beta_1x_0\) og varians \(\mbox{Var}[Y_0]=\sigma^2\). Prediksjonen \(\widehat{y}_0\) er tilsvarende en realisasjon av den stokastiske variabelen \[ \widehat{Y}_0 = \widehat{\beta}_0+\widehat{\beta}_1x_0, \] der \(\widehat{\beta}_0\) og \(\widehat{\beta}_1\) er våre estimatorer for henholdsvis \(\beta_0\) og \(\beta_1\). Vi tar så utgangspunkt i differansen \[ Y_0-\widehat{Y}_0 = Y_0 - \widehat{\beta}_0-\widehat{\beta}_1x_0. \] Siden estimatorene \(\widehat{\beta}_0\) og \(\widehat{\beta}_1\) er lineære funksjoner av \(Y_1,Y_2,\ldots,Y_n\) blir differansen \(Y_0-\widehat{Y}_0\) en lineær funksjon av \(Y_1,Y_2,\ldots,Y_n\) og \(Y_0\). I vår modell har vi antatt at disse \(Y_i\)'ene er uavhengige og normalfordelte og dermed blir også \(Y_0-\widehat{Y}_0\) normalfordelt. Ved å benytte kjente regneregler for forventingsverdi og varians kan vi finne \(\mbox{E}\left[Y_0-\widehat{Y}_0\right]\) og \(\mbox{Var}\left[Y_0-\widehat{Y}_0\right]\). Ved å benytte at \(\widehat{\beta}_0\) og \(\widehat{\beta}_1\) er forventningsrette får vi \[ \mbox{E}\left[Y_0-\widehat{Y}_0\right] = \mbox{E}\left[Y_0 - \widehat{\beta}_0-\widehat{\beta}_1x_0\right] = \mbox{E}[Y_0] - \mbox{E}\left[\widehat{\beta}_0\right] - \mbox{E}\left[\widehat{\beta}_1\right]x_0 = (\beta_0+\beta_1x_0) - \beta_0 - \beta_1x_0=0. \] Ved å sette inn at \(\widehat{\beta}_0 = \bar{Y} - \widehat{\beta}_1\bar{x}\) får vi \begin{eqnarray} \mbox{Var}\left[Y_0-\widehat{Y}_0\right] &=& \mbox{Var}\left[Y_0 - \widehat{\beta}_0-\widehat{\beta}_1x_0\right]\\ &=& \mbox{Var}\left[ Y_0 - \bar{Y} + \widehat{\beta}_1\bar{x}-\widehat{\beta}_1x_0\right]\\ &=& \mbox{Var}\left[ Y_0 - \bar{Y} -\widehat{\beta}_1(x_0-\bar{x})\right]\\ &=& \mbox{Var}[Y_0] + \mbox{Var}[\bar{Y}] + (x_0-\bar{x})^2\mbox{Var}\left[\widehat{\beta}_1\right], \end{eqnarray} der vi i den siste overgangen har benyttet at den fremtidige observasjonen \(Y_0\) er uavhengig av \(\bar{Y}\) og \(\widehat{\beta}_1\) siden disse kun er funksjon av de "gamle" observasjonene \(Y_1,Y_2,\ldots,Y_n\), og at vi under utregningen av variansen til \(\widehat{\beta}_0\) lenger oppe på denne siden fant at \(\mbox{Cov}\left[\bar{Y},\widehat{\beta}_1\right]=0\). Fra modellantagelsene har vi at \(\mbox{Var}[Y_0]=\sigma^2\). Under utregningen av \(\mbox{Var}\left[\widehat{\beta}_0\right]\) lenger oppe på denne siden fant vi dessuten at \(\mbox{Var}[\bar{Y}]=\frac{\sigma^2}{n}\) og variansen til \(\widehat{\beta}_1\) har vi også et uttrykk for. Setter vi inn dette får vi \[ \mbox{Var}\left[Y_0-\widehat{\beta}_0\right] = \sigma^2 + \frac{\sigma^2}{n} + (x_0-\bar{x})^2\frac{\sigma^2}{\sum_{i=1}^n(x_i-\bar{x})^2} =\sigma^2\left(1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right). \] Dermed har vi at \[ Y_0-\widehat{Y}_0 \sim \mbox{N}\left( 0,\sigma^2\left(1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)\right) \] Den tilhørende standardiserte variabelen blir dermed \[ Z = \frac{Y_0-\widehat{Y}_0}{\sqrt{\sigma^2\left(1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)}} \sim N(0,1). \] Dersom variansen \(\sigma^2\) har en kjent verdi kan vi ta utgangspunkt i denne stokastiske variabelen for å utlede et prediksjonsintervall. Mer typisk er det at verdien til \(\sigma^2\) også er ukjent og da vil man erstatte \(\sigma^2\) i uttrykket for \(Z\) med den forventningsrette estimatoren \(S^2\). Man vil dermed ta utgangspunkt i \[ T = \frac{Y_0-\widehat{Y}_0}{\sqrt{S^2\left(1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)}} \sim N(0,1) \] som man kan vise er \(t\)-fordelt med \(n-2\) frihetsgrader. For å se at T er t-fordelt må man observere at denne kan skrives på formen \[ T = \frac{Y_0-\widehat{Y}_0}{\sqrt{S^2\left(1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)}} = \frac{\frac{Y_0-\widehat{Y}_0}{\sqrt{\sigma^2\left(1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)}}} {\sqrt{\frac{\frac{(n-2)S^2}{\sigma^2}}{n-2}}} = \frac{Z}{\sqrt{\frac{V}{n-2}}} \] der \(Z\sim N(0,1)\) er som definert over og \[ V = \frac{(n-2)S^2}{\sigma^2} \sim \chi^2_{n-2}. \] Merk at sannsynlighetsfordelingen til \(V \)er diskutert under «Egenskaper til estimatorene» lenger oppe på denne temasiden. Det kan dessuten vises at \(Z\) og \(V\) er uavhengige. Når \(T\) kan utrykkes ved \(Z\) og \(V\) som gitt over og \(Z\) og \(V\) er uavhengige vet man at \(T\) er \(t\)-fordelt med samme antall frihetsgrader som V, dvs. \[ \frac{Y_0-\widehat{Y}_0}{\sqrt{S^2\left(1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)}} \sim t_{n-2}. \] La så \(t_{\frac{\alpha}{2},n-2}\) betegne \((1-\frac{\alpha}{2})\)-kvantilen i en \(t\)-fordeling med \(n-2\) frighetsgrader, se illustrasjonen i figuren under. Siden \(t\)-fordelingen er symmetrisk omkring null er \(\frac{\alpha}{2}\)-kvantilen da \(-t_{\frac{\alpha}{2},n-2}\), se igjen illustrasjonen under.

Da har vi at \[ P\left( -t_{\frac{\alpha}{2},n-2} \leq \frac{Y_0-\widehat{Y}_0}{\sqrt{S^2\left(1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)}} \leq t_{\frac{\alpha}{2},n-2}\right) = 1-\alpha. \] Løser hver av ulikhetene i dette uttrykket med hensyn på \(Y_0\), \[ -t_{\frac{\alpha}{2},n-2} \leq \frac{Y_0-\widehat{Y}_0}{\sqrt{S^2\left(1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)}} \hspace{1.0cm}\Leftrightarrow \hspace{1.0cm} \widehat{Y}_0 - t_{\frac{\alpha}{2},n-2} \sqrt{S^2\left(1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)} \leq Y_0, \] \[ \frac{Y_0-\widehat{Y}_0}{\sqrt{S^2\left(1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)}} \leq t_{\frac{\alpha}{2},n-2} \hspace{1.0cm}\Leftrightarrow \hspace{1.0cm} Y_0 \leq \widehat{Y}_0 + t_{\frac{\alpha}{2},n-2} \sqrt{S^2\left(1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)}. \] Setter vi de to ulikhetene sammen igjen med den fremtidige observasjonen \(Y_0\) i midten får vi \[ P\left( \widehat{Y}_0 - t_{\frac{\alpha}{2},n-2} \sqrt{S^2\left(1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)} \leq Y_0 \leq \widehat{Y}_0 + t_{\frac{\alpha}{2},n-2} \sqrt{S^2\left(1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)}\right) = 1-\alpha, \] slik at det stokastiske intervallet blir \[ \left[ \widehat{Y}_0 - t_{\frac{\alpha}{2},n-2} \sqrt{S^2\left(1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)} , \widehat{Y}_0 + t_{\frac{\alpha}{2},n-2} \sqrt{S^2\left(1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)}\right]. \] Vi får da prediksjonsintervallet ved å erstatte de stokastiske variablene \(Y_1,Y_2,\ldots,Y_n\) med de observerte verdiene \(y_1,y_2,\ldots,y_n\). Her vil det si at \(S^2\) skal erstattes med tilhørende observerte verdi \(s^2\) og \(\widehat{Y}_0\) skal erstattes med den predikerte verdien \(\widehat{y}_0\). Prediksjonsintervallet blir dermed \[ \left[ \widehat{y}_0 - t_{\frac{\alpha}{2},n-2} \sqrt{s^2\left(1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)} , \widehat{y}_0 + t_{\frac{\alpha}{2},n-2} \sqrt{s^2\left(1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)}\right], \] der \[ s^2 = \frac{1}{n-2}\sum_{i=1}^n \left(y_i - \widehat{\beta}_0-\widehat{\beta}_1x_i\right)^2 \hspace{1.0cm}\mbox{og}\hspace{1.0cm} \widehat{y}_0 = \widehat{\beta}_0+\widehat{\beta}_1x_0. \]

Relevante kapitler: 11.6
Relevante videoer:
\(\ \ \ \)Eksamen mai 2016, oppgave 2b (17:05, Mette Langaas)
\(\ \ \ \)Eksamen desember 2015, oppgave 4b (29:34, Thea Bjørnland)
Relevante oppgaver:
\(\ \ \ \)Eksamen desember 2016, oppgave 4a (b,n,e).
\(\ \ \ \)Eksamen august 2016, oppgave 3e (b,n,e).
\(\ \ \ \)Eksamen desember 2015, oppgave 4b (b,n,e).
\(\ \ \ \)Eksamen mai 2014, oppgave 2e (b,n,e).
\(\ \ \ \)Eksamen desember 2013, oppgave 4b (b,n,e).
\(\ \ \ \)Eksamen desember 2012, oppgave 3c (b,n,e).
\(\ \ \ \)Eksamen mai 2012, oppgave 4c (b,n,e).
\(\ \ \ \)Eksamen desember 2011, oppgave 3c (b,n,e).
\(\ \ \ \)Eksamen mai 2009, oppgave 3c (n).


2020-04-02, Håkon Tjelmeland