Temaside for TMA4240/TMA4245 Statistikk

Begreper, definisjoner og tolkninger

Parameterestimering

På denne temasiden er vi interessert i å anslå verdien av en ukjent størrelse \(\theta\). Vi skal anta at det ikke er mulig å måle eller observere verdien av \(\theta\) eksakt, men at det er mulig å gjøre målinger eller observasjoner der verdiene vi observerer avhenger av \(\theta\). Mer spesifikt skal vi anta at vi gjør \(n\) slike målinger eller observasjoner, og at resultatet av måling eller observasjon nummer \(i\) kan oppfattes som en stokastisk variabel \(X_i\). Vi skal videre forutsette at vi ut fra vår forståelse av fenomenet vi gjør målingene på eller ut fra måten vi gjør målingene vet hvilken type sannsynlighetsfordeling \(X_i\) har og at \(\theta\) inngår som en parameter i denne fordelingen. Vi skal dessuten anta at vi gjør målingene eller observasjonene på en sånn måte at det er rimelig å betrakte \(X_1,X_2,\ldots,X_n\) som uavhengige stokastiske variabler, og at disse \(n\) stokastiske variablene alle har samme sannsynlighetsfordeling, som vi betegner med \(f(x;\theta)\). Vi antar altså at en formel for \(f(x;\theta)\) er kjent, men at \(\theta\) inngår i denne formelen og at verdien til \(\theta\) er ukjent. Vi ønsker så å benytte resultatet av våre målinger eller observasjoner \(X_1,X_2,\ldots,X_n\) til å anslå verdien til \(\theta\). Ofte betegner man et slikt anslag med \(\hat{\theta}\). Her blir altså \(\hat{\theta}\) en funksjon av \(X_1,X_2,\ldots,X_n\), og \(\hat{\theta}\) sies da å være en estimator for \(\theta\). Etter at man har utført målingene eller observasjonene og fått observerte verdier \(x_1,x_2,\ldots,x_n\) for \(X_1,X_2,\ldots,X_n\) vil man sette disse verdiene inn i uttrykket for \(\hat{\theta}\) og få en observert verdi også for \(\hat{\theta}\). Denne observerte verdien for \(\hat{\theta}\) sies å være et estimat for \(\theta\). Hele prosessen med å spesifisere \(\hat{\theta}\) og å sette inn observerte verdier \(x_1,x_2,\ldots,x_n\) kalles parameterestimering.

Introduksjonsvideo: Parameterestimering (17:16, Håkon Tjelmeland)

Sentrale begreper

Trykk på det grå feltet for mer informasjon om temaet.

Populasjon, utvalg og tilfeldig utvalg

Populasjon, utvalg og tilfeldig utvalg

Definisjon: En populasjon består av alle mulige observasjoner man kan gjøre. Et utvalg er en delmengde av en populasjon.

Kommentar: Dersom observasjonene man kan gjøre definerer stokastiske variabler som har en sannsynlighetsfordeling \(f(x)\) sier man gjerne at man har en \(f(x)\)-populasjon. Dersom observasjonene man kan gjøre for eksempel gir opphav til stokastiske variabler som er normalfordelte sier vi altså at vi har en normalpopulasjon, og dersom de stokastiske variable er poissonfordelte sier vi at vi har en poissonpopulasjon.

Kommentar: Etter at man har gjort observasjoner på et utvalg vil man typisk ønske å benytte disse verdiene til å si noe om hele populasjonen. For at dette skal gi mening er det da essensielt at utvalger er representativt. Det er ulike fremgangsmåter man kan benytte for å skaffe seg et representativt utvalg, men i TMA4240/TMA4245 ser vi kun på en av disse, nemlig at man trekker tilfeldig hvilke observasjoner man gjør. Man sier da at man har et tilfeldig utvalg. En fordel med å benytte en slik strategi for å velge utvalget er at da vil de stokastiske variablene definert av utvalget være uavhengige og ha samme sannsynlighetsfordeling. Det at de stokastiske variablene er uavhengige gjør det matematisk sett enklere å kunne benytte de observerte verdiene til å kunne si noe om hele populasjonen.

Definisjon: La \(X_1,X_2,\ldots,X_n\) være \(n\) uavhengige stokastiske variabler, alle med samme sannsynlighetsfordeling \(f(x)\). Vi sier da at vi har et tilfeldig utvalg fra \(f(x)\)-populasjonen.

Kommentar: Hvis \(X_1,X_2,\ldots,X_n\) er et tilfeldig utvalg fra \(f(x)\)-populasjonen blir simultanfordelingen til \(X_1,X_2,\ldots,X_n\) bli \[ f(x_1,x_2,\ldots,x_n) = f(x_1)\cdot f(x_2)\cdot\ldots\cdot f(x_n) = \prod_{i=1}^n f(x_i). \]

Relevante kapitler: 8.1.
Relevante videoer:
Relevante oppgaver:


Observator

Observator

Definisjon: En observator er en observerbar funksjon av en eller flere stokastiske variabler som utgjør et tilfeldig utvalg.

Kommentar: For at en funksjon av stokastiske variabler skal sies å være observerbar kreves det at man skal være i stand til å observere eller måle en tilhørende verdi. Dette betyr at når man har observert eller målt verdier for de stokastiske variablene skal man være i stand til å regne ut en tilhørende verdi for observatoren. Spesielt betyr dette at en observator ikke kan være en funksjon av en parameter som ikke har en kjent verdi.

Eksempler: La \(X_1,X_2,\ldots,X_n\) der \(n\geq 2\) være et tilfeldig utvalg.

  • Gjennomsnitt er da observatoren

\[ \bar{X} = \frac{1}{n}\sum_{i=1}^n X_i. \]

  • Empirisk varians er da observatoren

\[ S^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \bar{X})^2. \]

  • Empirisk standardavvik er da observatoren

\[ S = \sqrt{S^2} = \sqrt{\frac{1}{n-1}\sum_{i=1}^n (X_i - \bar{X})^2}. \]

Kommentar: Siden en observator er en funksjon av stokastiske variabler vil en observator også selv være en stokastisk variabel. Dermed vil en observator ha alle de egenskaper som en stokastisk variabel har, som for eksempel en sannsynlighetsfordeling, en forventningsverdi og en varians.

Kommentar: Etter at man har gjort observasjonene på utvalget, dvs observert verdier \(x_1,x_2,\ldots,x_n\) for de stokastiske variablene \(X_1,X_2,\ldots,X_n\), kan man erstatte de stokastiske variablene i uttrykket for observatoren med tilhørende observerte verdier og regne ut en observert verdi også for observatoren. En observator er altså en størrelse man kan observere verdien til. Som nevnt over kan uttrykket for en observator ikke inneholde parametre som man ikke kjenner verdiene til.

Anvendelser: Observatorer spiller en viktig rolle når man skal benytte observerte verdier til å skaffe informasjon om verdien til en ukjent parameter. En estimator er en observator, øvre og nedre grenser i et konfidensintervall er observatorer, og testobservatorer som benyttes i forbindelse med hypotesetesting er også observatorer.

Relevante kapitler: 8.2 og 9.3.
Relevante videoer:
Relevante oppgaver:


Estimator

Estimator

Definisjon: Anta at vi har et tilfeldig utvalg \(X_1,X_2,\ldots,X_n\) fra \(f(x;\theta)\)-populasjonen, der verdien til parameteren \(\theta\) er ukjent. En estimator for \(\theta\) er da en observator som benyttes til å anslå verdien til \(\theta\).

Kommentar: En estimator for \(\theta\) er dermed en funksjon av de stokastiske variablene \(X_1,X_2,\ldots,X_n\). En mye brukt estimator for forventningsverdien \(\mu\) er for eksempel gjennomsnittet \(\frac{1}{n}\sum_{i=1}^n X_i\).

Notasjon: Som symbol for en estimator er det vanlig å sette en hatt over symbolet til den parameteren man ønsker å estimere. Dersom man skal estimere verdien til \(\theta\) kaller man altså den tilhørende estimatoren for \(\hat{\theta}\), som man leser som theta-hatt. Andre notasjoner som noen ganger blir benyttet for en estimator er å sette en tilde eller en stjerne på symbolet for parameteren eller å sette to hatter over symbolet. Dersom man for eksempel har tre estimatorer for verdien til parameteren \(\theta\) kan man kalle disse for henholdsvis \(\hat{\theta}\), \(\tilde{\theta}\) og \(\theta^\star\).

Kommentar: Siden en estimator \(\hat{\theta}\) er en observator, altså en funksjon av stokastiske variabler, blir en estimator en stokastiske variabel. En estimator har dermed alle de egenskaper som stokastiske variabler har. Spesielt vil en estimator ha en sannsynlighetsfordeling, en forventningsverdi og en varians. Det å finne sannsynlighetsfordelingen til en estimator \(\hat{\theta}\) er i noen situasjoner relativt enkelt, mens i andre situasjoner kan det være svært vanskelig. Hvor lett eller vanskelig det er avhenger av hvilken fordeling \(X_i\)-ene har og hvordan \(\hat{\theta}\) er gitt som funksjon av \(X_1,X_2,\ldots,X_n\).

Notasjon: Etter at man har observert verdier \(x_1,x_2,\ldots,x_n\) for \(X_1,X_2,\ldots,X_n\) vil man naturlig sette inn disse verdiene i uttrykket for \(\hat{\theta}\) og regne ut en tilhørende tallverdi for \(\hat{\theta}\). Denne verdien kalles et estimat for \(\theta\). Selv om det kan være noe misledende er det mye vanlig å benytte notasjonen \(\hat{\theta}\) også for estimatet for \(\theta\), og dette gjøres på temasidene du nå ser på. Selv om man benytter notasjon \(\hat{\theta}\) for både for estimatoren og estimatet er det viktig å skille mellom disse to. Estimatoren er en stokastisk variabel, mens estimatet er et tall. For å understreke forskjellen mellom en estimator og et estimat benytter en del bøker notasjonen \(\hat{\Theta}\) for estimatoren og \(\hat{\theta}\) for tilhørende estimat.

Relevante kapitler: 8.2 og 9.3.
Relevante videoer:
Relevante oppgaver:


Forventningsrett og forventningsskjev estimator

Forventningsrett og forventningsskjev estimator

Definisjon: En estimator \(\hat{\theta}\) sies å være en forventningsrett estimator for en parameter \(\theta\) hvis \[ E\!\left[\hat{\theta}\right] = \theta. \] Hvis ikke sies \(\hat{\theta}\) å være en forventningsskjev estimator for \(\theta\).

Tolkning: For å forstå hvilken betydning det har at en estimator er forventingsrett må man først huske tolkningen av forventningsverdi. Denne gir at vi kan tenke på \(E\!\left[\hat{\theta}\right]\) som gjennomsnittsverdien til de estimatene vi får hvis vi gjentar det stokastiske forsøket som ligger til grunn for \(\hat{\theta}\) uendelig mange ganger. En forventningsrett estimator \(\hat{\theta}\) vil dermed i gjennomsnitt treffe verdien til \(\theta\).

Kommentar: Når man skal vurdere hvor god en estimator er vil man normalt starte med å sjekke om den er forventningsrett. Blant flere estimatorer for samme parameter vil man foretrekke en som er forventningsrett. Hvis man har flere forventningsrette estimatorer vil man foretrekke den som er mest effisient (se diskusjon under).

Relevante kapitler: 9.3.
Relevante videoer:
\(\ \ \ \)Egenskaper til estimatorer (23:52, Håkon Tjelmeland)
\(\ \ \ \)Eksamen august 2015, oppgave 3bc (23:53, Mette Langaas).
Relevante oppgaver:
\(\ \ \ \)Eksamen desember 2015, oppgave 2b (b,n,e).
\(\ \ \ \)Eksamen august 2015, oppgave 2b (b,n,e).
\(\ \ \ \)Eksamen august 2015, oppgave 3c (b,n,e).
\(\ \ \ \)Eksamen juni 2015, oppgave 3c (b,n,e).
\(\ \ \ \)Eksamen desember 2014, oppgave 3a (b,n,e).
\(\ \ \ \)Eksamen august 2014, oppgave 3a (b,n).
\(\ \ \ \)Eksamen mai 2014, oppgave 1d (b,n,e).
\(\ \ \ \)Eksamen desember 2013, oppgave 3ab (b,n,e).
\(\ \ \ \)Eksamen mai 2013, oppgave 3d (b,n,e).
\(\ \ \ \)Eksamen august 2011, oppgave 4b (b).
\(\ \ \ \)Eksamen august 2010, oppgave 1fg (b,n,e).
\(\ \ \ \)Eksamen juni 2010, oppgave 2c (b,n,e).
\(\ \ \ \)Eksamen desember 2009, oppgave 3b (b,n,e).
\(\ \ \ \)Eksamen august 2009, oppgave 2d (n).
\(\ \ \ \)Eksamen mai 2009, oppgave 2c (b,n,e).


Mest effisient estimator

Mest effisient estimator

Definisjon: Av flere forventningsrette estimatorer for en parameter sier vi at den med minst varians er mest effisient.

Kommentar: Av flere forventningsrette estimatorer foretrekker vi den som er mest effisient. Dersom vi har to eller flere forventningsrette estimatorer vil vi altså velge å benytte den som har minst varians.

Tolkning: For å forstå rimeligheten av å foretrekke den forventningsrette estimatoren som har minst varians, må man huske på at varians er et mål på hvor mye observert verdi for en stokastisk variabel vil variere dersom man gjentar det stokastiske forsøket uanedlig mange ganger. Ved å foretrekke den forventningsrette estimatoren som har minst varians vil man altså velge den estimatoren som i gjennomsnitt treffer riktig verdi og som samtidig gjennomgående bommer minst på sanne verdien til parameteren.

Kommentar: Hvis man har to forventningsrette estimatorer \(\hat{\theta}\) og \(\tilde{\theta}\) og ønsker å bestemme hvilken av disse som er den beste estimatoren må man altså bestemme hvilken av \(\text{Var}\!\left[ \hat{\theta}\right]\) og \(\text{Var}\!\left[ \tilde{\theta}\right]\) som er minst. Hvordan man enklest kan bestemme dette rent matematisk vil variere avhengighet av hvordan uttrykkene for de to variansene ser ut. Noen ganger kan det gi enklest regning å ta utgangspunkt i \[ \text{Var}\!\left[ \hat{\theta}\right] - \text{Var}\!\left[ \tilde{\theta}\right] \] og så vise at denne differansen alltid er positiv eller alltid negativ. Andre ganger kan det gi enklere regning å ta utgangspunkt i \[ \frac{\text{Var}\!\left[ \hat{\theta}\right]}{\text{Var}\!\left[ \tilde{\theta}\right]} \] og så vise at dette forholdet alltid er større enn en eller alltid mindre enn en. Det finnes også situasjoner der hvilken varians som er minst avhenger av verdien til \(\theta\).

Relevante kapitler: 9.3.
Relevante videoer:
\(\ \ \ \)Egenskaper til estimatorer (23:52, Håkon Tjelmeland)
Relevante oppgaver:
\(\ \ \ \)Eksamen desember 2015, oppgave 2b (b,n,e).
\(\ \ \ \)Eksamen august 2015, oppgave 2b (b,n,e).
\(\ \ \ \)Eksamen juni 2015, oppgave 3c (b,n,e).
\(\ \ \ \)Eksamen august 2014, oppgave 3a (b,n).
\(\ \ \ \)Eksamen desember 2013, oppgave 3ab (b,n,e).
\(\ \ \ \)Eksamen mai 2013, oppgave 3d (b,n,e).
\(\ \ \ \)Eksamen august 2010, oppgave 1fg (b,n,e).
\(\ \ \ \)Eksamen juni 2010, oppgave 2c (b,n,e).
\(\ \ \ \)Eksamen desember 2009, oppgave 3b (b,n,e).
\(\ \ \ \)Eksamen august 2009, oppgave 2d (n).


Rimelighetsfunksjonen, sannsynlighetsmaksimeringsprinsippet og sannsynlighetsmaksimeringsestimator (SME)

Rimelighetsfunksjonen, sannsynlighetsmaksimeringsprinsippet og sannsynlighetsmaksimeringsestimator (SME)

Definisjon: Anta at \(X_1,X_2,\ldots,X_n\) er stokastiske variabler med simultan sannsynlighetsfordeling \(f(x_1,x_2,\ldots,x_n;\theta)\), der \(\theta\) er en skalar parameter eller en vektor av parametre. Anta videre at en formel for fordelingen \(f(x_1,x_2,\ldots,x_n;\theta)\) er kjent, men at verdien til \(\theta\) er ukjent. Hvis man har observerte verdier \(x_1,x_2,\ldots,x_n\) for hver av de stokastiske variablene \(X_1,X_2,\ldots,X_n\) er rimelighetsfunksjonen gitt som \[ L(\theta;x_1,x_2,\ldots,x_n) = f(x_1,x_2,\ldots,x_n;\theta). \]

Tolkning: Innsatt observerte verdier \(x_1,x_2,\ldots,x_n\) vil \(f(x_1,x_2,\ldots,x_n;\theta)\) uttrykke hvor sannsynlig det er å observere det man har observert. Siden sannsynlighetsfordelingen \(f(x_1,x_2,\ldots,x_n;\theta)\) endrer seg når verdien til \(\theta\) endrer seg vil åpenbart sannsynligheten for å observere det man har observert være en funksjon av verdien til \(\theta\). Denne funksjonen kaller vi altså rimelighetsfunksjonen og den uttrykker, som funksjon av \(\theta\), hvor sannsynlig eller rimelig det er å observere det vi har observert..

Notasjon: På engelsk kalles rimelighetsfunksjonen for "the likelihood function", og bokstaven L som benyttes som symbol for rimelighetsfunksjonen er forkortelse for "likelihood".

Kommentar: Man bør merke seg at det er en viktig forskjell mellom simultanfordelingen \(f(x_1,x_2,\ldots,x_n;\theta)\) og rimelighetsfunksjonen \(L(\theta;x_1,x_2,\ldots,x_n)\) selv om det fra definisjonen over kan se ut som om de er identiske. Hvis man skriver opp formler for henholdsvis simultanfordelingen \(f(x_1,x_2,\ldots,x_n;\theta)\) og rimelighetsfunksjonen \(L(\theta;x_1,x_2,\ldots,x_n)\) vil disse være identiske slik definisjonen over angir. Forskjellen mellom de to er hvilke variabler de er en funksjon av og hva som er fastholdte parametre eller tall. Simultanfordelingen \(f(x_1,x_2,\ldots,x_n;\theta)\) er en funksjon av \(x_1,x_2,\ldots,x_n\), mens parameteren \(\theta\) tenkes å ha en fastholdt verdi. For rimelighetsfunksjonen er det motsatt. Rimelighetsfunksjonen er en funksjon av parameteren \(\theta\), mens vi tenker på \(x_1,x_2,\ldots,x_n\) som observerte verdier, altså kjente tall.

Kommentar: Når man skal danne en rimelighetsfunksjon vil svært ofte \(X_1,X_2,\ldots,X_n\) være antatt å være et tilfeldig utvalg fra \(f(x;\theta)\)-populasjonen. Dette betyr at \(X_1,X_2,\ldots,X_n\) er uavhengige stokastiske variabler og at \(f(x;\theta)\) er marginalfordelingen for hver av \(X_1,X_2,\ldots,X_n\). Da er simultanfordelingen til \(X_1,X_2,\ldots,X_n\) lik produktet av de \(n\) marginalfordelingene slik at vi får \[ L(\theta;x_1,x_2,\ldots,x_n) = \prod_{i=1}^n f(x_i;\theta). \]

Eksempel: Figuren under viser et eksempel på en rimelighetsfunksjon. Det er her antatt at man har \(n\) stokastiske variabler som er et tilfeldig utvalg fra en eksponensialfordeling med parameter \(\lambda\). Rimelighetsfunksjonen blir da \[ L(\lambda;x_1,x_2,\ldots,x_{n}) = \prod_{i=1}^{n} \left[\lambda e^{-\lambda x_i}\right] = \lambda^{n} \exp\left\{-\lambda \left(\sum_{i=1}^{n}x_i\right)\right\} \] for \(\lambda > 0\). Figuren under viser denne rimelighetsfunksjonen når \(n=10\) og de observerte verdiene er \(x_1=0.181\), \(x_2=0.495\), \(x_3=1.287\), \(x_4=0.058\), \(x_5=0.289\), \(x_6=0.103\), \(x_7=0.049\), \(x_8=0.609\), \(x_9=0.051\) og \(x_{10}=0.141\).

Kommentar: Fra definisjonen ser vi at for hver verdi av parameteren \(\theta\) er rimelighetsfunksjonen \(L(\theta;x_1,x_2,\ldots,x_n)\) er sannsynlighet (hvis \(X_1,X_2,\ldots,X_n\) er diskrete stokastiske variabler) eller en sannsynlighetstetthet (hvis \(X_1,X_2,\ldots,X_n\) er kontinuerlige stokastiske variabler). \(L(\theta;x_1,x_2,\ldots,x_n)\) vil dermed være ikke-negativ for alle verdier av \(\theta\). Men merk at \(L(\theta;x_1,x_2,\ldots,x_n)\) ikke er en sannsynlighetsfordeling. I figuren over ser vi for eksempel dette ved at arealet mellom rimelighetsfunksjonen og \(x\)-aksen åpenbart er større enn en.

Sannsynlighetsmaksimeringsprinsippet: Sannsynlighetsmaksimeringsprinisppet sier at dersom man skal estimere verdien til en parameter \(\theta\) ut fra observerte verdier \(x_1,x_2,\ldots,x_n\), så skal man velge den verdi av \(\theta\) som gjør det mest sannsynlig å observere de verdiene man faktisk har observert.

Kommentar: Da rimelighetsfunksjonen \(L(\theta;x_1,x_2,\ldots,x_n)\) uttrykker hvor sannsynlig det er å observere det man har observert, angir sannsynlighetsmaksimeringsprinsippet at man som estimat for \(\theta\) skal benytte den verdi av \(\theta\) som maksimerer \(L(\theta;x_1,x_2,\ldots,x_n)\). Det er verdt å merke seg at dette estimatet naturlig nok blir en funksjon av de observerte verdiene \(x_1,x_2,\ldots,x_n\). I definisjonen under benytter vi notasjonen \(\hat{\theta} = u(x_1,x_2,\ldots,x_n)\) for dette sannsynlighetsmaksimeringsestimatet. Matematisk betyr dette at vi har \[ L(u(x_1,x_2,\ldots,x_n);x_1,x_2,\ldots,x_n) \geq L(\theta;x_1,x_2,\ldots,x_n) \] for alle parameterverdier \(\theta\) og alle verdier \(x_1,x_2,\ldots,x_n\).

Definisjon: La \(u(x_1,x_2,\ldots,x_n)\) betegne estimatet for \(\theta\) man får ved å benytte sannsynlighetsmaksimeringsprinsippet. Sannsynlighetsmaksimeringsestimatoren (SME) for \(\theta\) er da \[ \hat{\theta} = u(X_1,X_2,\ldots,X_n), \] mens tilhørende observert verdi \(\hat{\theta} = u(x_1,x_2,\ldots,x_n)\), der \(x_1,x_2,\ldots,x_n\) er observerte verdier, kalles sannsynlighetsmaksimeringsestimatet.

Kommentar: Man skal merke seg at vi i definisjonen over har benyttet samme symbol \(\hat{\theta}\) både for estimatoren for \(\theta\) og for tilhørende observert estimat. For en nærmere diskusjon om forskjellen mellom en estimator og et estimat og tilhørende notasjon, se kommentarer under "estimator" lenger oppe på denne temasiden.

Kommentar: Når man skal utlede SME vil det i de fleste tilfeller gi enklere regning dersom man fokuserer på \(\ln(L(\theta;x_1,x_2,\ldots,x_n))\) i stedet for på rimelighetsfunksjonen \(L(\theta;x_1,x_2,\ldots,x_n)\) selv. Dette er motivasjonen for å definere log-rimelighetsfunksjonen.

Definisjon: Log-rimelighetsfunksjonen er \[ l(\theta;x_1,x_2,\ldots,x_n) = \ln (L(\theta;x_1,x_2,\ldots,x_n)) \] for de verdier av \(\theta\) hvor \(L(\theta;x_1,x_2,\ldots,x_n)>0\).

Kommentar: Siden \(\ln\) er en strengt voksende funksjon vil \(L(\theta;x_1,x_2,\ldots,x_n)\) og \(l(\theta;x_1,x_2,\ldots,x_n)\) ta sine maksima for samme verdi av \(\theta\). Det å finne SME ved å maksimere \(L(\theta;x_1,x_2,\ldots,x_n)\) med hensyn på \(\theta\) vil dermed gi samme resultat som å maksimere \(l(\theta;x_1,x_2,\ldots,x_n)\) med hensyn på \(\theta\). Grunnen til at det vanligvis gir enklere regning å fokusere på log-rimelighetsfunksjonen er, som diskutert over, at rimelighetsfunksjonen typisk er gitt som et produkt. Ved å benytte regneregler for \(\ln\) får vi da at log-rimelighetsfunksjonen vil være gitt som en sum. For å maksimere vil man typisk starte med å derivere, og mens det å derivere en sum kan gjøres enkelt ved å derivere hvert ledd for seg må man benytte multiplikasjonsregelen for å derivere et produkt og dette gir vanligvis større og mer kompliserte uttrykk å regne med.

Eksempel: Litt lenger opp på denne temasiden vises et eksempel på en rimelighetsfunksjon. Figuren under viser log-rimelighetsfunksjonen for samme situasjon, og man kan legge merke til at rimelighetsfunksjonen lenger oppe på denne temasiden og log-rimelighetsfunksjonen under har sitt maksimum for samme parameterverdi. Det er her antatt at man har \(n\) stokastiske variabler som er et tilfeldig utvalg fra en eksponensialfordeling med parameter \(\lambda\). Log-rimelighetsfunksjonen blir da \[ l(\lambda;x_1,x_2,\ldots,x_{n}) = \ln\left[ \prod_{i=1}^{n} \left(\lambda e^{-\lambda x_i}\right) \right] = \ln\left[ \lambda^n \exp\left( - \lambda \sum_{i=1}^n x_i\right)\right] = n\ln \lambda - \lambda\sum_{i=1}^n x_i, \] for \(\lambda > 0\). Figuren under viser denne log-rimelighetsfunksjonen når \(n=10\) og de observerte verdiene er \(x_1=0.181\), \(x_2=0.495\), \(x_3=1.287\), \(x_4=0.058\), \(x_5=0.289\), \(x_6=0.103\), \(x_7=0.049\), \(x_8=0.609\), \(x_9=0.051\) og \(x_{10}=0.141\).

Kommentar: For å utlede SME vil man altså maksimere log-rimelighetsfunksjonen med hensyn på parameteren \(\theta\). Fra matematisk teori vet vi at rimelighetsfunksjonen vil ta sitt maksimum

  • for en verdi av \(\theta\) hvor den deriverte \(l^\prime(\theta;x_1,x_2,\ldots,x_n)\) er lik null,
  • for en verdi av \(\theta\) hvor den deriverte ikke er definert (for eksempel fordi \(l(\theta;x_1,x_2,\ldots,x_n)\) er diskontinuerlig eller har et knekkpunkt for denne verdien av \(\theta\)), eller
  • for en verdi av \(\theta\) som ligger på randen av verdiområdet til \(\theta\).

For de fleste rimelighetsfunksjoner vi ser på i TMA4240/TMA4245 vil rimelighetsfunksjonen (og dermed også log-rimelighetsfunksjonen) ta sitt maksimum for en verdi av \(\theta\) hvor den deriverte er lik null. En mer detaljert algoritme for å utlede SME er gitt på temasiden med regneregler og regneprosedyrer for estimatorer.

Relevante kapitler: 9.14.
Relevante videoer:
Relevante oppgaver:
\(\ \ \ \)Eksamen desember 2015, oppgave 1b (b,n,e).
\(\ \ \ \)Eksamen august 2015, oppgave 2b (b,n,e).
\(\ \ \ \)Eksamen juni 2015, oppgave 3b (b,n,e).
\(\ \ \ \)Eksamen august 2014, oppgave 1e (b,n).
\(\ \ \ \)Eksamen mai 2014, oppgave 1d (b,n,e).
\(\ \ \ \)Eksamen august 2013, oppgave 2b (b,n,e).
\(\ \ \ \)Eksamen mai 2013, oppgave 3d (b,n,e).
\(\ \ \ \)Eksamen desember 2012, oppgave 2d (b,n,e).
\(\ \ \ \)Eksamen august 2012, oppgave 3b (b).
\(\ \ \ \)Eksamen mai 2012, oppgave 1b (b,n,e).
\(\ \ \ \)Eksamen desember 2011, oppgave 2b (b,n,e).
\(\ \ \ \)Eksamen august 2011, oppgave 4b (b).
\(\ \ \ \)Eksamen juni 2011, oppgave 3d (b,n,e).
\(\ \ \ \)Eksamen desember 2010, oppgave 4b (b,n,e).
\(\ \ \ \)Eksamen august 2010, oppgave 1g (b,n,e).
\(\ \ \ \)Eksamen juni 2010, oppgave 2b (b,n,e).
\(\ \ \ \)Eksamen desember 2009, oppgave 2b (b,n,e).
\(\ \ \ \)Eksamen august 2009, oppgave 2cd (n).
\(\ \ \ \)Eksamen mai 2009, oppgave 2c (b,n,e).


2017-02-20, Håkon Tjelmeland