Temaside for TMA4240/TMA4245 Statistikk

Regneregler og regneprosedyrer

Parameterestimering

I parameterestimering er det to spørsmål man ofte har behov for å finne svar på. Det første spørsmålet er: Hvis to eller flere estimatorer er foreslått for en parameter \(\theta\), hvilken av disse estimtorene er den beste? Alternativt, hvilken av de foreslåtte estimatorene bør man foretrekke? Det andre spørsmålet er: Hvis man har en parameter \(\theta\) man ønsker å estimere, hva er sannsynlighetsmaksimeringsestimatoren (SME) for denne parameteren? På denne temasiden diskuteres kort beregningsprosedyrer som kan benyttes for å besvare disse to spørsmålene. Beregningsprosedyrene er basert på kritierer som er nærmere diskutert på temasiden med begreper, definisjoner og tolkninger innen parameterestimering.

Sentrale begreper

Trykk på det grå feltet for mer informasjon om temaet.

Hvilken estimator er best?

Hvilken estimator er best?

Situasjon: Anta at vi har stokastiske variabler \(X_1,X_2,\ldots,X_n\) som er et tilfeldig utvalg fra \(f(x;\theta)\)-populasjonen, der verdien til parameteren \(\theta\) er ukjent. Anta videre at det er foreslått to eller flere estimatorer \(\hat{\theta}_1,\hat{\theta}_2,\ldots,\hat{\theta}_K\) for \(\theta\), der altså \(K\geq 2\). Vi ønsker nå å bestemme hvilken av \(\hat{\theta}_1,\hat{\theta}_2,\ldots,\hat{\theta}_K\) som er den beste estimatoren for \(\theta\).

Kriterier: For å bestemme hvilken estimator som er best benytter vi to kriterier:

  1. Vi ønsker at en estimator skal være forventningsrett.
  2. Blant de forventningsrette estimatorene foretrekker vi den som er mest effisient.

Beregningsprosedyre: Fremgangsmåten for å bestemme hvilken estimator som er best er da:

  1. For hver estimator \(\hat{\theta}_k,k=1,2,\ldots,K\) benytt regneregler for forventingsverdi til å bestemme \(E\left[\hat{\theta}_k\right]\). Dersom \(E\left[\hat{\theta}_k\right]=\theta\) er estimatoren \(\hat{\theta}_k\) forventingsrett, hvis ikke er den forventingsskjev. Dersom kun en av de foreslåtte estimatorene er forventningsrett er dette den beste estimatoren. Dersom to eller flere av de foreslåtte estimatorene er forventingsrette må vi gå videre til neste kriterium for å bestemme hvilken av de forventingsrette estimatorene som er den beste.
  2. For hver forventingsrett estimator \(\hat{\theta}_k\) benytt regneregler for varians til å bestemme \(\text{Var}\left[\hat{\theta}_k\right]\). Bestem deretter hvilken av disse variansene som er minst. Den forventingsrette estimatoren som har minst varians sies å være den mest effisiente, og er den beste estimatoren.

Kommentar: Når man regner ut en varians i punkt 2 vil man vanligvis ende opp med en formel hvor parameteren \(\theta\) inngår, og ikke et tall. Det å bestemme hvilken av to (eller flere) varianser som er minst kan dermed i noen situasjoner bli regnemessig noe komplisert. Dersom man skal bestemme hvilken av to varianser som er minst kan det enkleste i noen tilfeller være å regne på forholdet mellom de to variansene og forsøke å vise at dette forholdet alltid er mindre enn eller lik \(1\) eller alltid større enn eller lik \(1\). I andre tilfeller blir det enklest regning ved å se på differensen mellom de to variansene og forsøke å vise at differensen alltid er større enn eller lik \(0\) eller mindre enn eller lik \(0\). En annen mulighet er å plotte opp forholdet mellom eller differansen mellom de to variansene som funksjon av \(\theta\) og benytte dette til å få oversikt over situasjonen.

Relevante kapitler: 9.3.
Relevante videoer:
\(\ \ \ \)Egenskaper til estimatorer (20:04, Håkon Tjelmeland)
Relevante oppgaver:
\(\ \ \ \)Eksamen desember 2015, oppgave 2b (b,n,e).
\(\ \ \ \)Eksamen august 2015, oppgave 2b (b,n,e).
\(\ \ \ \)Eksamen juni 2015, oppgave 3c (b,n,e).
\(\ \ \ \)Eksamen august 2014, oppgave 3a (b,n).
\(\ \ \ \)Eksamen desember 2013, oppgave 3ab (b,n,e).
\(\ \ \ \)Eksamen mai 2013, oppgave 3d (b,n,e).
\(\ \ \ \)Eksamen desember 2009, oppgave 3b (b,n,e).
\(\ \ \ \)Eksamen august 2009, oppgave 2d (n).


Utlede en sannsynlighetsmaksimeringsestimator (SME)

Utlede en sannsynlighetsmaksimeringsestimator (SME)

Situasjon: Anta at vi har stokastiske variabler \(X_1,X_2,\ldots,X_n\) som er et tilfeldig utvalg fra \(f(x;\theta)\)-populasjonen, der verdien til parameteren \(\theta\) er ukjent. Vi ønsker å finne en estimator for \(\theta\).

Kriterium: Man benytter sannsynlighetsmaksimeringsprinsippet til å definere en estimator for \(\theta\). Dette betyr at man velger som estimat for \(\theta\) den verdien av \(\theta\) som gjør det mest sannsynlig å observere det man faktisk har observert.

Beregningsprosedyre: Fremgangsmåten for å utlede SME er:

  1. Finn simultanfordelingen for \(X_1,X_2,\ldots,X_n\). Siden vi har antatt at \(X_1,X_2,\ldots,X_n\) er et tilfeldig utvalg er \(X_i\)'ene uavhengige av hverandre og vi finner simultanfordelingen ved å gange sammen fordelingen til hver av \(X_1,X_2,\ldots,X_n\), \[f(x_1,x_2,\ldots,x_n;\theta) = \prod_{i=1}^n f(x_i;\theta).\]
  2. Finn rimelighetsfunksjonen, \[ L(\theta) = f(x_1,x_2,\ldots,x_n;\theta) = \prod_{i=1}^n f(x_i;\theta).\] Man bør merke seg at formelen for rimelighetsfunksjonen er identisk med formelen for simultanfordelingen \(f(x_1,x_2,\ldots,x_n;\theta)\). Forskjellen mellom de to er kun hvilke variabler som er fastholdt og hvilke variabler man betrakter uttrykket å være en funksjon av. Det å etablere rimelighetsfunskjonen innebærer dermed ikke noe regnearbeid, det er kun en endring av perspektiv.
  3. Finn formel for log-rimelighetsfunksjonen, \[ l(\theta) = \ln L(\theta) = \sum_{i=1}^n \ln [f(x_i;\theta)].\]
  4. Maksimer \(l(\theta)\) med hensyn på \(\theta\). I de fleste tilfeller vi ser på i TMA4240/TMA4245 kan dette gjøres ved
    1. derivere log-rimelighetsfunksjonen, dvs. finne \(l^\prime (\theta)\),
    2. løse \(l^\prime(\theta)=0\) med hensyn på \(\theta\), og
    3. sjekke at man har funnet et maksimum (og ikke et minimum) ved sjekke fortegnet til \(l^{\prime\prime}(\theta)\).
  5. Konkludere ved å skrive opp estimatoren. Dette gjør man ved ta utgangspunkt i løsningen av ligningen \(l^\prime(\theta)=0\) og så erstatte \(\theta\) med \(\widehat{\theta}\) og de observeret verdiene \(x_1,x_2,\ldots,x_n\) med tilhørende stokastiske variabler \(X_1,X_2,\ldots,X_n\). Så dersom \(l(\theta)\) har sitt maksimum for \(\theta=u(x_1,x_2,\ldots,x_n)\) blir SME gitt ved \[\widehat{\theta} = u(X_1,X_2,\ldots,X_n).\]

Kommentar: I punkt 4 over, når man skal maksimere \(l(\theta)\) med hensyn på \(\theta\), må man huske på at en funksjon \(l(\theta)\) kan ha sitt maksimum i et

  1. kritisk punkt for \(l(\theta)\), dvs. en verdi av \(\theta\) der \(l^\prime(\theta)=0\),
  2. singulært punkt for \(l(\theta)\), dvs. en verdi av \(\theta\) der \(l^\prime(\theta)\) ikke eksisterer, for eksempel et knekkpunkt eller diskontinuitetspunkt, eller
  3. i en verdi på randen av definisjonsområdet til funksjonen \(l(\theta)\).

I de fleste tilfellene vi ser på i TMA4240/TMA4245 vil man finne maksimum i et kritisk punkt, men man kan også kunne komme borti situasjoner hvor maksimumverdien befinner seg i et singulært punkt eller på randen av verdiområdet.

Kommentar: Noen sannsynlighetsmaksimeringsestimatorer er forventningrette, mens andre er forventningsskjeve. Etter at man har utledet en SME er det derfor naturlig å vurdere dens egenskaper ved å sjekke om den er forventningsrett.

Relevante kapitler: 9.14.
Relevante videoer:
Relevante oppgaver:
\(\ \ \ \)Eksamen desember 2015, oppgave 1b (b,n,e).
\(\ \ \ \)Eksamen august 2015, oppgave 2b (b,n,e).
\(\ \ \ \)Eksamen juni 2015, oppgave 3b (b,n,e).
\(\ \ \ \)Eksamen august 2014, oppgave 1e (b,n).
\(\ \ \ \)Eksamen august 2013, oppgave 2b (b,n,e).
\(\ \ \ \)Eksamen mai 2013, oppgave 3d (b,n,e).
\(\ \ \ \)Eksamen desember 2011, oppgave 2b (b,n,e).
\(\ \ \ \)Eksamen august 2011, oppgave 4b (b).
\(\ \ \ \)Eksamen juni 2011, oppgave 3d (b,n,e).
\(\ \ \ \)Eksamen desember 2010, oppgave 4b (b,n,e).
\(\ \ \ \)Eksamen august 2010, oppgave 1g (b,n,e).
\(\ \ \ \)Eksamen juni 2010, oppgave 2b (b,n,e).
\(\ \ \ \)Eksamen desember 2009, oppgave 2b (b,n,e).
\(\ \ \ \)Eksamen august 2009, oppgave 2cd (n).
\(\ \ \ \)Eksamen mai 2009, oppgave 2c (b,n,e).


2017-02-20, Håkon Tjelmeland