Temaside for TMA4240/TMA4245 Statistikk
Begreper, definisjoner og tolkninger
Viktige kontinuerlige sannsynlighetsfordelinger
Introduksjonsvideo: Viktige kontinuerlige sannsynlighetsfordelinger (17:51, Mette Langaas)
Dette vet du allerede:
- En kontinuerlig stokastisk variabel, \(X\), kan ta verdier fra alle de reelle tall, eller et intervall av den reelle tallinja.
- Fordelingsfunksjonen til \(X\), \(f(x)\), kalles sannsynlighetstettheten og kan best forklares ved å se på sannsynligheten for at \(X\) ligger i et intervall mellom a og b er \(P(a<X\le b)=\int_{a}^b f(x) dx\). Spesielt ser vi at hvis vi lar intervallet bli smalere og smalere (a går mot b) så vil vi se at punktsannsynligheten for en kontinuerlig stokastisk variabel er 0. Dette er en viktig forskjell til en diskret stokastisk variabel.
- Du finner kumulativ fordelingsfunksjon ved å integrere: \(F(x)=\int_{-\infty}^x f(t)dt\) og
- forventningsverdi som \(E(X)=\int_{-\infty}^{\infty} xf(x)dx=\mu\).
- Varians finner vi ved \( Var(X)=E((X-\mu)^2)=\int_{-\infty}^{\infty} (x-\mu)^2 f(x)dx\).
Vi skal nå se på noen viktige kontinuerlige fordelinger. Disse er:
- uniform: lik sannsynlighet for intervaller av lik lengde, enkel å regne med,
- normal: den kjente klokkeformede fordelingen som passer for måling av fysiske størrelser og vitenskaplige målinger med målefeil,
- eksponential: ventetid i en Poisson-prosess,
- gamma: generalisering av eksponential, ventetid til \(r\)te hendelse i en Poisson-prosess,
- kji-kvadrat og t-fordeling: fordelinger som er utledet fra normalfordelingen, men som ikke opptrer som direkte målinger, har en parameter som heter "frihetsgrader" som mange blir forvirret av, er spesielt viktig innen statistisk inferens.
For hver av disse skal vi
- se situasjoner der fordelingen passer,
- se hvordan \(f(x)\) kan utledes og/eller ser ut matematisk og grafisk,
- se hvordan vi kan regne ut \(F(x)\) og derifra sannsynligheter,
- utlede forventningsverdien E(X) og variansen Var(X).
Sentrale begreper
Trykk på det grå feltet for mer informasjon om temaet.
Eksempel. Vi ser på ankomst av SMS til en basestasjon, og får vite at mellom klokka 12:00 og 12:05 ankom en SMS til basestasjonen. Hva er da sannsynlighetsfordelingen til ankomsttiden til denne SMSen? Det kan vises (vi viser det ikke her, men det kommer av at vi har sett på ankomst av SMS som en Poisson-prosess) at da er det like stor sannsynlighet for at SMSen kom mellom 12:00 og 12:01, som mellom 12:01 og 12:02, som mellom 12:02 og 12:03, som mellom 12:03 og 12:04, som eller mellom 12:04 og 12:05. Synes du det høres logisk ut? En fordeling som har denne egenskapen, lik sannsynlighet for å være innenfor alle like store intervaller, heter en uniform fordeling.
Fordelingsfunksjon, \(f(x) \) Hvis \(X\) er en kontinuerlig stokastisk variabel som har lik sannsynlighet for å ta verdi innenfor alle like store intervaller i [A,B], er \[ f(x)= \begin{cases} \frac{1}{B-A} &\text{ for } A \le x \le B \\ 0 & \text{ ellers. } \end{cases} \]
Eksempel. Vi vet at det ankom en SMS til basestasjonen mellom 12:00 og 12:05. La oss nullstille tiden kl 12:00 og la x være antallet minutter som er gått siden kl 12:00. Dermed har vi at \(A=0\) og \(B=5\). Sannsynlighetsfordelingen (tettheten) i SMS-eksemplet er da \(f(x)=\frac{1}{5}\) for \(0\le x\le 5\) og \( 0\) ellers.
Kumulativ fordelingsfunksjon, \(F(x) \) er gitt som: \[ F(x)=\begin{cases} 0 & \text{ for } x < A \\ \frac{x-A}{B-A} & \text{ for } A \le x \le B\\ 1 &\text{ for } x > B. \end{cases}\]
Eksempel. Hva er da sannsynligheten for at SMSen ankom mellom 12:04 og 12:05? Vi har nullstilt tiden til \(0\) kl 12:00, og da blir 12:04 til \(4\) og 12:05 til \(5\). \[P(4\le X \le 5)=P(X\le 5)-P(X \le 4)=F(5)-F(4)=\frac{5-4}{5-0}=0.2.\]
Bevis \(F(x) \)
Bevis \(F(x) \)
\[ F(x)=P(X\le x) =\int_{-\infty}^x f(t)dt=\begin{cases} \int_{-\infty}^{x} 0 dt = 0 & \text{ for } x < A \\ \int_{-\infty}^A 0 dt+ \int_{A}^{x} \frac{1}{B-A} dt = \frac{x-A}{B-A} & \text{ for } A \le x \le B\\ \int_{-\infty}^A 0 dt+\int_{A}^B \frac{1}{B-A}dt + \int_{B}^{x} 0 dt= 1 &\text{ for } x > B. \end{cases} \]
Forventningsverdien E(X) i uniform fordeling er gitt som \[ \text{E}(X)=\frac{1}{2}(A+B) \] dvs. midt mellom A og B.
Bevis E(X)
Bevis E(X)
\[ \text{E}(X)=\mu=\int_{-\infty}^{\infty} x f(x) dx=\int_{A}^B x \frac{1}{B-A} dx= \frac{1}{B-A}[\frac{1}{2} x^2]_A^B=\frac{\frac{1}{2}(B^2-A^2)}{B-A}=\frac{\frac{1}{2}(B-A)(B+A)}{B-A}=\frac{1}{2}(A+B) \]
Eksempel. Hva er forventet tid for SMSen som ankom 12:04 og 12:05? Vi har nullstilt tiden til \(0\) kl 12:00, og finner at \[\text{E}(X)=\frac{1}{2}(5-0)=2.5\] som betyr at forventet tid er 12:00 + 2.5 minutter, dvs. 12:02:30 (2 minutter og 30 sekunder over 12).
Variansen Var(X) i uniform fordeling er gitt som \[ \text{Var}(X)=\frac{1}{12}(B-A)^2. \]
Bevis Var(X)
Bevis Var(X)
\[ \text{Var}(X)=\text{E}(X^2)-\text{E}(X)^2=\int_A^B x^2 \frac{1}{B-A}dx -\frac{(A+B)^2}{4}= [\frac{1}{B-A}\frac{x^3}{3}]_A^B-\frac{A^2+2AB+B^2}{4}=\frac{1}{3(B-A)}(B^3-A^3)-\frac{A^2+2AB+B^2}{4}\] \[ = \frac{(B-A)(A^2+AB+B^2)}{3(B-A)}-\frac{A^2+2AB+B^2}{4}=\frac{1}{12}((4A^2+4AB+4B^2)-(3A^2+6AB+3B^2))=\frac{1}{12}(B^2-2AB+A^2)=\frac{(B-A)^2}{12}\]
Eksempel. Hva er standardavviket til ankomsttiden for SMSen? \[ \text{Var}(X)=\frac{1}{12}(5-0)^2=\frac{25}{12}=2.083\] \[ \text{SD}(X)=\sqrt{\text{Var}(X)}=\sqrt{2.083}=1.44\] Dvs. at standardavviket er 1 minutt og 26 sekunder.
Relevante videoer:
Normalfordelingen står i en særstilling blant sannsynlighetsfordelingene. Grunnen er at sannsynlighetsfordelingen til summer og gjennomsnitt av uavhengige stokastiske variabler, som alle har samme fordeling, nærmer seg en bestemt klasse fordelinger. Det er denne fordelingsklassen som kalles normalfordeling. Tilnærmingen blir bedre jo flere variabler vi summerer eller tar gjennomsnittet av. Det er verdt å merke seg at fordelingen som de enkelte variablene har, ikke er av så stor betydning – summen eller gjennomsnittet vil uansett nærme seg normalfordelingen.
La oss anta at \(\text{$X_1$, $X_2$, $\ldots$, $X_n$}\) er uavhengige og kommer fra samme fordeling. For enkelhets skyld antar vi først at \(EX_i=0\) og \(\operatorname{Var}X_i=1\). Fordelingen til summen og fordelingen til gjennomsnittet avhenger åpenbart av \(n\) (variansene til summen blir \(n\) og til gjennomsnittet \(1/n\)). Imidlertid vil forventningsverdi og varians til en beslektet observator, \(Y=\frac1{\sqrt n}\sum_{i=1}^nX_i\), ikke avhenge av \(n\), og være lik henholdsvis \(0\) og \(1\) (bekreft dette ved å bruke regler for forventningsverdi av lineærkombinasjon av variabler og for varians av lineærkombinasjon av uavhengige variabler). Det er dermed håp om at \(Y\) får en fordeling som konvergerer når \(n\) vokser. Det viser seg at momengenerererende funksjon for \(Y\) går mot funksjonen gitt ved \(e^{t^2/2}\) når \(n\to\infty\), uansett hva den eksakte sannsynlighetsfordelingen til \(X_i\)-ene er.
Hvorfor?
Hvorfor?
La \(M_X\) være momentgenererende funksjon for \(\text{$X_1$, $X_2$, $\ldots$, $X_n$}\). Da er \(M_X(0)=1\) (momentgenererende funksjon er alltid lik \(1\) i \(0\)), \(M'_X(0)=EX_i=0\) og \(M''_X(0)=EX_i^2=\operatorname{Var}X_i+(EX_i)^2=1+0^2=1\). Regler for momentgenererende funksjoner gir da at momentgenererende funksjon for \(Y\) er gitt ved \(M_Y(t)=\prod_{i=1}^nM_X(t/\sqrt n)=(M_X(t/\sqrt n))^n\).
Taylorrekkeutviklingen om \(0\) av \(M_X\) er gitt ved \(M_X(t)=M_X(0)+M'_X(0)t+\frac12M''_X(0)t^2+\cdots=1+t^2/2+\cdots\), som gir \(M_X(t/\sqrt n)=1+\frac1nt^2/2+\cdots\). Det gir \(M_Y(t)=(1+\frac1nt^2/2+\cdots)^n\). De tre prikkene angir ledd der \(n\) i nevner er opphøyd i en potens større enn én.
En kjent grenseverdi fra Matematikk 1 er \(\lim_{n\to\infty}(1+\frac an)^n=e^a\). Hvis du ikke husker den, kan du utlede den ved å bruke l'Hôpitals regel på \(\ln(1+\frac an)^n=n\ln(1+\frac an)=\frac{\ln(1+a/n)}{1/n}\), som har grenseverdi \(a\) når \(n\to\infty\).
Tilbake til vår situasjon skulle dette indikere at \(M_Y(t)=(1+\frac1nt^2/2+\cdots)^n\to e^{t^2/2}\) når \(n\to\infty\). Her har vi satt \(a=t^2/2\) i grenseverdien ovenfor. I tillegg har vi ignorert leddene som de tre prikkene indikerer – ledd der \(n\) inngår i nevner opphøyd i en potens større enn én. Hvis du gjennomfører l'Hôpitals regel som forklart ovenfor, men på \((1+\frac1nt^2/2+\cdots)^n\), vil du se hvorfor dette er greit.
Dermed har vi skissert at momentgenererende funksjon til \(\frac1{\sqrt n}\sum_{i=1}^nX_i\) går mot funksjonen gitt ved \(e^{t^2/2}\) når \(n\to\infty\), forutsatt at \(\text{$X_1$, $X_2$, $\ldots$, $X_n$}\) er uavhengige og kommer fra samme fordeling, og \(EX_i=0\) og \(\operatorname{Var}X_i=1\).
Vi kan lett generalisere dette og anta at \(EX_i=\mu\) og \(\operatorname{Var}X_i=\sigma^2\). Da har \((X_i-\mu)/\sigma\) forventningsverdi \(0\) og varians \(1\) (sjekk dette ved å bruke regler for forventningsverdi og varians av en lineær funksjon av en variabel). Resultatet ovenfor sier da at \( \frac1{\sqrt n}\sum_{i=1}^n\frac{X_i-\mu}\sigma=\frac1{\sqrt n\sigma}(\sum_{i=1}^nX_i-n\mu)\) har momentgenererende funksjon som går mot \(e^{t^2/2}\) når \(n\to\infty\).
Kan vi finne en sannsynlighetsfordeling som har momentgenererende funksjon gitt ved \(e^{t^2/2}\)? Ja, det viser seg at \(\phi(z)=\frac1{\sqrt{2\pi}}e^{-z^2/2}\) er en sannsynlighetstetthet som gir denne momentgenererende funksjonen.
Hvorfor?
Hvorfor?
Hvorfor er \(\phi\) i det hele tatt en sannsynlighetstetthet? Den er åpenbart positivt for alle \(z\). I tillegg er \(\left(\int_{-\infty}^\infty\phi(z)\,dz\right)^2=\left(\int_{-\infty}^\infty\frac1{\sqrt{2\pi}}e^{-z^2/2}dz\right)^2=\left(\int_{-\infty}^\infty\frac1{\sqrt{2\pi}}e^{-x^2/2}dx\right)\left(\int_{-\infty}^\infty\frac1{\sqrt{2\pi}}e^{-y^2/2}dy\right)=\int_{-\infty}^\infty\int_{-\infty}^\infty\frac1{2\pi}e^{-(x^2+y^2)/2}dx\,dy=\int_0^{2\pi}\int_0^\infty\frac1{2\pi}e^{-r^2/2}r\,dr\,d\theta=1\), som viser at \(\int_{-\infty}^\infty\phi(z)\,dz=1\). I den nest siste overgangen innførte vi polarkoordinater. Sjekk at integralet er lik \(1\) (du kan bruke substitusjonen \(u=-r^2/2\)).
Momentgenererende funksjon til en variabel \(Z\) som har tetthet \(\phi\) er gitt ved \(Ee^{tZ}=\int_{-\infty}^\infty e^{tz}\phi(z)\,dz=\int_{-\infty}^\infty e^{tz}\frac1{\sqrt{2\pi}}e^{-z^2/2}dz=\int_{-\infty}^\infty\frac1{\sqrt{2\pi}}e^{-(z^2-2tz+t^2)/2}e^{t^2/2}dz=e^{t^2/2}\int_{-\infty}^\infty\frac1{\sqrt{2\pi}}e^{-(z-t)^2/2}dz=e^{t^2/2}\). Substitusjonen \(u=z-t\) i det siste integralet gjør at integranden blir \(\phi(u)\), og siden \(\phi\) er en tetthet, er dette integralet lik \(1\).
Vi kaller denne sannsynlighetsfordelingen standardnormalfordelingen. Ofte brukes, som vi har gjort, \(\phi\) som symbol for tettheten til en standardnormalfordelt variabel.
Standardnormalfordelingen. En stokastisk variabel \(Z\) med sannsynlighetstetthet gitt ved \(\frac1{\sqrt{2\pi}}e^{-z^2/2}\), \(z\in\mathbb R\), kalles standardnormalfordelt. Den kumulative fordelingsfunksjonen kan ikke skrives på lukket form ved hjelp av elementære funksjoner. I formelsamlingen kalles den \(\Phi\), og vi må altså nøye oss med å skrive \(\Phi(z)=P(Z\leq z)=\int_{-\infty}^z\frac1{\sqrt{2\pi}}e^{-t^2/2}dt\). Vi må bruke programpakker for å finne verdier av \(\Phi\), eller vi kan slå opp på side 1 og 2 i formelsamlingen.
Generell normalfordeling. Hvis \(Z\) er standardnormalfordelt, og \(\mu\) og \(\sigma\neq0\) er to tall, har \(\mu+\sigma Z\) sannsynlighetstetthet gitt ved \(f(x)=\frac1{\sqrt{2\pi\sigma^2}}e^{-(x-\mu)^2/(2\sigma^2)}\), \(x\in\mathbb R\).
Bevis
Bevis
La \(X=\mu+\sigma Z\), og anta at \(\sigma>0\). Da er \(P(X\leq x)=P(\mu+\sigma Z\leq x)=P\left(Z\leq\frac{x-\mu}\sigma\right)\). Vi deriverer den kumulative fordelingsfunksjonen for å finne tettheten til \(X\): \(f(x)=\frac d{dx}P(X\leq x)=\frac d{dx}P\left(Z\leq\frac{x-\mu}\sigma\right)=\phi\left(\frac{x-\mu}\sigma\right)\cdot\frac1\sigma=\frac1{\sqrt{2\pi}\sigma}e^{-(x-\mu)^2/(2\sigma^2)}\). Her er \(\phi(z)=\frac1{\sqrt{2\pi}}e^{-z^2/2}\) tettheten til den standardnormalfordelte variabelen \(Z\), og vi må huske å bruke kjerneregelen i nest siste overgang. Vi antok at \(\sigma>0\). Hvis \(\sigma<0\), må vi gjøre noen justeringer i argumentasjonen ovenfor, men vi får samme resultat.
Vi sier at en variabel \(X\) med denne sannsynlighetstettheten er normalfordelt med parametre \(\mu\) og \(\sigma^2\), og vi skriver kort \(X\sim N(\mu,\sigma^2)\). Når \(Z\) er standardnormalfordelt, har vi \(Z\sim N(0,1)\).
Forventningsverdi og varians. Vi antar videre at \(\sigma>0\). Hvis \(X\sim N(\mu,\sigma^2)\), har \(X\) forventningsverdi \(EX=\mu\), varians \(\operatorname{Var}X=\sigma^2\) og standardavvik \(\sigma\).
Hvorfor?
Hvorfor?
Skjult under Detaljer ovenfor fant vi at momentgenererende funksjon til en standardnormalfordelt variabel \(Z\) er gitt ved \(M(t)=e^{t^2/2}\). Det er lett å verifisere at \(EZ=M'(0)=0\) og at \(\operatorname{Var}Z=EZ^2-(EZ)^2=M''(0)-0^2=1\). Vi kan også intuitivt se det ved at \(Y=\frac1{\sqrt n}\sum_{i=1}^nX_i\), som vi betraktet under Detaljer, nettopp hadde forventningsverdi \(0\) og varians \(1\) og en fordeling som gikk mot standardnormalfordeling når \(n\to\infty\).
Vi kan også regne ut \(EZ=\int_{-\infty}^\infty z\cdot\frac1{\sqrt{2\pi}}e^{-z^2/2}=0\) og \(EZ^2=\int_{-\infty}^\infty z^2\cdot\frac1{\sqrt{2\pi}}e^{-z^2/2}=1\) direkte. I det første tilfellet kan vi bruke substitusjonen \(u=-z^2/2\) og i det andre delvis integrasjon.
Vi vet at \(X=\mu+\sigma Z\sim N(\mu,\sigma^2)\) når \(Z\sim N(0,1)\). Regler for forventningsverdi og varians av en lineær funksjon av en variabel gir nå direkte \(EX=\mu\) og \(\operatorname{Var}X=\sigma^2\).
Grafen til sannsynlighetstettheten. Grafen til tettheten \(f(x)=\frac1{\sqrt{2\pi}\sigma}e^{-(x-\mu)^2/(2\sigma^2)}\) til en normalfordelt variabel er symmetrisk om \(x=\mu\). \(\ f\) har bare ett ekstremalpunkt, nemlig maksimum i \(\mu\), og \(f(x)\to0\) når \(x\to-\infty\) og når \(x\to\infty\). Grafen har vendepunkt (den dobbeltderiverte skifter fortegn) når \(x=\mu-\sigma\) og når \(x=\mu+\sigma\) – se den første figuren nedenfor. Som alle tettheter, er den ikkenegativ, og arealet av området mellom \(x\)-aksen og grafen er \(1\).
Den andre figuren ovenfor viser grafen til \(f\) for noen kombinasjoner av \(\mu\) (forventningsverdi) og \(\sigma\) (standardavvik).
Når er en variabel normalfordelt? Som sagt i starten, har summer og gjennomsnitt av stokastiske variabler en tendens til å bli normalfordelt. Normalfordelingen dukker også opp også i tilfeller der det ikke er åpenbart at det dreier seg om sum eller gjennomsnitt (men kanskje variabelen vi studerer framkommer som en sum av variabler som for oss er usynlige eller ukjente?). Et eksempel er målinger, som er beheftet med måleusikkerhet. Vi skal se på et annet eksempel – høyde av menn.
Eksempel. Det viser seg at høyden, målt i cm, av menn fra Nord-Trøndelag mellom 20 og 60 år tilnærmet er normalfordelt med forventningsverdi \(179{,}1\) og standardavvik \(6{,}5\). Det betyr at hvis \(X\) er høyden til en tilfeldig valgt blant disse mennene, så er \(X\sim N(179{,}1, \ 6{,}5^2)\). La oss regne ut \(P(175<X\leq178)\). Hadde vi kjent kumulativ fordelingsfunksjon for \(X\), kunne vi ha regnet det ut som \(P(X\leq178)-P(X\leq175)\). Men den kumulative fordelingsfunksjonen kan ikke skrives på lukket form, og i formelsamlingen fins bare tabell over kumulativ fordelingsfunksjon for standardnormalfordelingen. Vi trenger derfor en framgangsmåte for å uttrykke den søkte sannsynligheten ved hjelp av denne.
Standardisering. Hvis \(X\sim N(\mu,\sigma^2)\), er \(\frac{X-\mu}\sigma\sim N(0,1)\). Å subtrahere forventningsverdien og dividere på standardavviket, kalles å standardisere.
Hvorfor?
Hvorfor?
\(X\) har samme fordeling som \(\mu+\sigma Z\), der \(Z\) er standardnormalfordelt (se Generell normalfordeling ovenfor). Dermed har \(\frac{X-\mu}\sigma\) samme fordeling som \(\frac{\mu+\sigma Z-\mu}\sigma=Z\).
Eksempel, forts. Vi skal finne \(P(175<X\leq178)\), der \(X\sim N(179{,}1, \ 6{,}5^2)\). Hvis vi standardiserer, kan vi bruke tabellen på s. 1–2 i formelsamlingen. Vi observerer at hendelsene \(175<X\leq178\) og \(\frac{175-179{,}1}{6{,}5}<\frac{X-179{,}1}{6{,}5}\leq\frac{178-179{,}1}{6{,}5}\) er like, og at variabelen i midten er blitt standardisert.
Vi kan skrive \(P(175<X\leq178)=P\left(\frac{175-179{,}1}{6{,}5}<\frac{X-179{,}1}{6{,}5}\leq\frac{178-179{,}1}{6{,}5}\right)=P(-0{,}63<Z\leq-0{,}17)=P(Z\leq-0{,}17)-P(Z\leq-0{,}63)=0{,}4325-0{,}2643=0{,}17.\) Her står \(Z\) for en standardnormalfordelt variabel.
Til venstre er grafen til standardnormaltettheten. Vi er interessert i arealet av det mørkeste området, \(P(-0{,}63<Z\leq-0{,}17)\), og vi finner det som differansen av arealet av hele det fargelagte området, \(P(Z\leq-0{,}17)\), og av det lyseste fargelagte området, \(P(Z\leq-0{,}63)\). De to siste arealene finner vi på side 1 i formelsamlingen.
Her ser du hvor du finner \(P(Z\leq-0{,}17)\) i tabellsamlingen:
La oss nå løse en litt annerledes oppgave. Hvilken høyde er det sannsynlighet \(0{,}05\) for at en tilfeldig valgt mann er høyere enn?
Kvantiler og kritiske verdier. Generelt er \(q\)-kvantilen i en kontinuerlig fordeling tallet som variabelen har sannsynlighet \(q\) for å være mindre enn. Det vil si at hvis \(P(X\leq x)=q\), så er \(x\) \(\,q\)-kvantilen i fordelingen til \(X\). Vi kaller også \(x\) \(\,100q\)-prosentilen, og av og til kalles \(x\) nedre \(q\)-kvantil eller øvre \(1-q\)-kvantil. I tabellsamlingen kalles \(x\) en kritisk verdi som hører til sannsynligheten \(1-q\) – det vil si at \(P(X>x)=1-q\).
Eksempel, forts. Vi skulle finne den høyden som det er sannsynlighet \(0{,}05\) for at en tilfeldig valgt mann er høyere enn. Vi kalte høyden til en tilfeldig valgt mann \(X\), og \(X\sim N(179{,}1, \ 6{,}5^2)\). Vi skal altså finne tallet \(x\) som har egenskapen at \(P(X>x)=0{,}05\), eller ekvivalent, at \(P(X\leq x)=0{,}95\), altså (nedre) \(0{,}95\)-kvantil, eller kritisk verdi som hører til sannsynligheten \(0{,}05\).
Igjen må vi standardisere for å løse oppgaven ved hjelp av formelsamlingen. Vi søker \(x\) slik at \(0{,}05=P(X>x)=P\left(\frac{X-179{,}1}{6{,}5}>\frac{x-179{,}1}{6{,}5}\right)=P\left(Z>\frac{x-179{,}1}{6{,}5}\right)\), der \(Z\) er standardnormalfordelt. Vi søker altså et tall \(z\) som er slik at \(P(Z>z)=0{,}05\). Hvis vi da velger \(x\) slik at \(\frac{x-179{,}1}{6{,}5}=z\), er vi framme.
Vi kan gå fram på to måter. Enten søker vi oss baklengs fram i tabellen på side 1–2 for å finne et tall \(z\) som er slik at \(P(Z>z)=0{,}05\). Fordi denne tabellen viser \(P(Z\leq z)\), må vi søke etter \(z\) slik at \(P(Z\leq z)=0{,}95\). På side 2 finner vi at \(P(Z\leq1{,}64)=0{,}9495\) og at \(P(Z\leq1{,}65)=0{,}9505\). Svaret må altså være at \(z\) ligger mellom \(1{,}64\) og \(1{,}65\).
I dette tilfellet er vi så heldig at vi kan bruke tabellen på side 3 (se til høyre), som angir kritiske verdier for et utvalg sannsynligheter (som ofte brukes i estimering og hypotesetesting). Vi ser at \(P(Z>z)=0{,}05\) for \(z=1{,}645\).
Det gjenstår bare å velge \(x\) slik at \(\frac{x-179{,}1}{6{,}5}=1{,}645\), for da har vi sett at \(P(X>x)=0{,}05\). Vi løser likningen, og finner \(x=179{,}1+6{,}5\cdot1{,}645=189{,}8\).
Altså er \(189{,}8\) cm høyden som \(5\,\%\) av mennene er høyere enn.
Noen nyttige sannsynligheter. Anta at \(X\sim N(\mu,\sigma^2)\). Da er \(P(\mu-\sigma<X<\mu+\sigma)\approx0{,}68\) og \(P(\mu-2\sigma<X<\mu+2\sigma)\approx0{,}95\). Sannsynligheten er altså \(0{,}68\) for at en normalfordelt variabel har avstand mindre enn ett standardavvik fra forventningsverdien, og \(0{,}95\) for at den har avstand mindre enn to standardavvik fra forventningsverdien.
Hvorfor?
Hvorfor?
Vi viser den andre sannsynligheten, og som vanlig standardiserer vi. \(P(\mu-2\sigma<X<\mu+2\sigma)=P\left(\frac{\mu+2\sigma-\mu}\sigma<\frac{X-\mu}\sigma<\frac{\mu+2\sigma-\mu}\sigma\right)=P(-2<Z<2)=P(Z<2)-P(Z< -2)=0{,}9772-0{,}0228=0{,}954\). Her er \(Z\) standardnormalfordelt, og vi finner \(P(Z<2)\) og \(P(Z< -2)\) fra tabellsamlingen, side 1–2.
Sentralgrenseteoremet. Vi skisserte, skjult under Detaljer ovenfor, beviset for sentralgrenseteoremet: Hvis \(X_1\), \(X_2\), \(\ldots,\), \(X_n\) er uavhengige, og alle er fra samme sannsynlighetsfordeling, nærmer fordelingen til \(\frac1{\sqrt n\sigma}(\sum_{i=1}^nX_i-n\mu)=\frac{\bar X-\mu}{\sigma/\sqrt n}\) seg standardnormalfordelingen når \(n\) vokser. Merk at vi ikke har antatt noe spesielt om sannsynlighetsfordelingen til \(X_i\)-ene (de trenger ikke være normalfordelte), men forventningsverdien \(\mu\) og variansen \(\sigma^2\) må eksistere.
Ved å bruke at en lineær funksjon av en standardnormalfordelt variabel er normalfordelt (se Generell normalfordeling ovenfor), og regler for forventningsverdi og varians av en lineær funksjon av en variabel, finner vi at summen, \(\sum_{i=1}^nX_i\), blir nær \(N(n\mu,n\sigma^2)\), og gjennomsnittet (middelverdien), \(\bar X=\frac1n\sum_{i=1}^nX_i\), blir nær \(N(\mu,\sigma^2/n)\) når \(n\) er stor.
Vi får vanligvis god tilnærming til normalfordelingen for overraskende små \(n\). I figuren nedenfor har vi tatt utgangspunkt i sannsynlighetstettheten gitt ved \[f(x)=\begin{cases}0&\text{hvis $\lvert x\rvert>1$}&\\\lvert x\rvert&\text{hvis $\lvert x\rvert\leq1$.}\end{cases}\] Forventningsverdien til en variabel fra denne fordelingen har forventningsverdi \(\mu=0\) og varians \(\sigma^2=\frac12\) (sjekk dette ved å regne ut forventningsverdi og varians etter definisjonene). Hvis \(X_1\), \(X_2\), \(\ldots,\), \(X_n\) er uavhengige og fra denne fordelingen, sier sentralgrenseteoremet at fordelingen til \(\frac{\bar X}{\frac12/\sqrt n}=\sqrt{2n}\bar X\) nærmer seg standardnormalfordelingen når \(n\) vokser. Figuren viser grafen til sannsynlighetstettheten til \(\sqrt{2n}\bar X\) (svart) for \(n=1\), \(2\), \(\ldots,\) \(12\). Til sammenlikning er også grafen til tettheten til standardnormalfordelingen tegnet inn (rødt).
Når \(n=1\), vises tettheten til \(\sqrt 2X_1\), som har samme form som tettheten \(f\) til \(X_1\), som vi tok utgangspunkt i. Grafen ser absolutt ikke ut som grafen til standardnormaltettheten – den er totoppet, har knekkpunkter og er lik \(0\) utenom intervallet \([-\sqrt2,\sqrt2]\). Likevel ser vi at tettheten når \(n=12\), nærmest er identisk med standardnormaltettheten. (Det er nokså vanskelig å regne ut disse tetthetene, så det er gjort ved hjelp av datamaskin.)
Eksempel: Normaltilnærming til binomisk fordeling
Eksempel: Normaltilnærming til binomisk fordeling
La \(X\) være antall suksesser i en bernoulliprosess (binomisk forsøksrekke) med \(n\) forsøk og suksessannsynlighet \(p\). Da er \(X\) binomisk fordelt med parametre \(n\) og \(p\). Det er ikke lett å se at binomisk fordeling og normalfordeling har noe med hverandre å gjøre.
Men la \(I_i\) være en såkalt indikatorvariabel som er lik \(0\) hvis forsøk nr. \(i\) ender med fiasko og lik \(1\) hvis det ender med suksess. Da er \(I_1\), \(I_2\), \(\ldots,\) \(I_n\) uavhengige (siden forsøkene i en bernoulliprosess er uavhengige), og poenget er at \(X=\sum_{i=1}^nI_i\). Nå kan sentralgrenseteoremet brukes på disse enkle variablene. Fordelingen til hver \(I_i\) er binomisk med parametre \(1\) (antall forsøk) og \(p\) (suksessannsynlighet), slik at \(EI_i=p\) og \(\operatorname{Var}I_i=p(1-p)\). Fra sentralgrenseteoremet har vi da at \(X=\sum_{i=1}^nI_i\) tilnærmet har fordeling \(N(np,np(1-p))\) når \(n\) er stor. Dette kan brukes for å finne tilnærmede verdier av sannsynligheter av form \(P(a\leq X\leq b)\), på samme måte som vi fant \(P(175<X\leq178)\) i eksemplet ovenfor. Å finne den eksakte sannsynligheten ved hjelp av fordelingsfunksjonen til binomisk fordeling er nemlig arbeidskrevende når \(n\) er stor.
Du kan lese mer om normaltilnærmelse til binomisk fordeling (normal approximation to the binomial) i læreboka. En enda bedre tilnærmelse får man ved å innse at \(P(a\leq X\leq b)=P(a-\frac12\leq X\leq b+\frac12)\) når \(a\) og \(b\) er hele tall, før man går over til å anta at \(X\) tilnærmet er normalfordelt (heltallskorreksjon).
Lineærkombinasjon av normalfordelte variabler. Hvis \(X_1\), \(X_2\), \(\ldots,\) \(X_n\) er uavhengige, og \(X_i\sim N(\mu_i,\sigma_i^2)\), er \(a_0+\sum_{i=1}^na_iX_i\sim N\left(a_0+\sum_{i=1}^na_i\mu_i,\sum_{i=1}^na_i^2\sigma_i^2\right)\).
Kommentarer
Kommentarer
Dette kan vises greit ved hjelp av momentgenererende funksjoner – se læreboka.
En lineærkombinasjon av normalfordelte variabler \(X_1\), \(X_2\), \(\ldots,\) \(X_n\) kan være normalfordelt selv om variablene ikke er uavhengige. Alle lineærkombinasjoner av \(X_1\), \(X_2\), \(\ldots,\) \(X_n\) er normalfordelt hvis og bare hvis \((X_1,X_2,\ldots,X_n)\) er det som kalles multivariat normalfordelt. Du kan lære om multivariat normalfordeling i kurset TMA4267 Lineære statistiske modeller.
Relevante videoer: Normalfordeling (20:43, Mette Langaas), Standardisering (ca. 30 min, Mette Langaas)
Relevante oppgaver: Desember 2012 2a, Desember 2015 2a, August 2015 1ab
Vi ser på hendelser som kan inntreffe innenfor et tidsintervall eller et område.
- Antall hendelser som inntreffer i et tidsintervall eller i et område, er uavhengig av antall hendelser som inntreffer i ethvert annet disjunkt (ikke-overlappende) tidsintervall eller område.
- Sannsynligheten for at en enkelt hendelse inntreffer innenfor et lite tidsintervall eller et lite område, er proporsjonal med lengden av intervallet eller størrelsen på området.
- Sannsynligheten for at mer enn en hendelse skal inntreffe innenfor et lite tidsintervall eller et lite område er neglisjerbar.
Når disse tre egenskapene er oppfylt så sier vi at vi har en Poisson-prosess. Dette leder til tre fordelinger:
- Antall hendelser, \(X\), i en Poisson-prosess er Poisson-fordelt.
- Tid mellom to hendelser i en Poisson-prossess er eksponentielt fordelt.
- Tid mellom flere hendelser i en Poisson-prosess er gammafordelt.
Relevante videoer:
\(\ \ \ \)Poisson-prossess og -fordeling (16:08, Mette Langaas)
Eksempel. Vi ser på bruk av mobiltelefon blant bilførere. Politiet står oppstilt utenfor en barneskole, og gir bot til alle bilførere som bruker mobiltelefonen mens de kjører. Anta at bøter skrives ut etter en Poisson-prosess. Vi lar \(X\) være tid til første bot skrives ut. Da vil \(X\) være eksponentialfordelt.
Fordelingsfunksjon, \(f(x) \):
\[ f(x)= \begin{cases} \lambda e^{-\lambda x} &\text{ for } x>0, \lambda>0 \\ 0 & \text{ ellers. } \end{cases} \]
Kumulativ fordelingsfunksjon, \(F(x)\): \[ F(x)=\begin{cases} 0 & \text{ for } x < 0 \\ 1-e^{-\lambda x} & \text{ for } x\ge 0\\ \end{cases}\] Kommentar: en alternativ parameterisering er \(\lambda=\frac{1}{\beta}\). Denne brukes i læreboka og i formelsamlingen.
Bevis \(F(x)\) og \(f(x)\)
Bevis \(F(x)\) og \(f(x)\)
Anta at vi har en Poisson-prosess med intensitet \(\lambda\), og la \(Y\) være antall hendelser innenfor et intervall \([0,t]\). Da vet vi at \(Y\) er Poisson-fordelt, med forventningsverdi \( \lambda t\), og fordelingsfunksjon \( f(y)=\frac{(\lambda t)^y}{y!} e^{-\lambda t}\). Nå lar vi \(X\)= tid til første hendelse. \[ F(x)=P(X\le x)=1-P(X>x)=1-P(\text{ingen hendelser i $[0,x]$})\] \[=1-P(Y=0 \text{ når Y er Poisson-fordelt med forventning }\lambda x)=1-\frac{(\lambda x)^0}{0!} e^{-\lambda x}=1-e^{-\lambda x}\] Vi finner \(f(x)\) ved å derivere. \[ f(x)=\frac{dF(x)}{dx}=\frac{d}{dx}(1-e^{-\lambda x})=\lambda e^{-\lambda x}\] Det kan vises at tid mellom etterfølgende hendelser har samme fordeling som tid til første hendelse.
Eksempel. Bruk av mobiltelefon blant bilførere (fortsetter). Anta at bøter skrives ut med en intensitet på \(\lambda=5\) bøter pr time. Politiet starter kontrollen sin klokken 08:00. Hva er sannsynligheten for at den første boten blir skrevet ut før klokken 8:20? La \(X\) være tid i timer etter kl 8:00, da kan vi oversette spørsmålet til å regne ut sannsynligheten for at \(X\le \frac{1}{3}\). \[P(X \le \frac{1}{3})=1-e^{-5 \cdot \frac{1}{3}}=0.81\] Videre, hva er sannsynligheten for at første bot kommer mellom kl 8:20 og 8:30? Dette spørsmålet kan i oversette til å regne ut sannsynligheten for at \(\frac{1}{3} \le X \le \frac{1}{2}\). \[P(\frac{1}{3} \le X \le \frac{1}{3})=F(\frac{1}{2})-F(\frac{1}{3})=(1-e^{-5 \frac{1}{2}})-(1-e^{-5 \cdot \frac{1}{3}})=0.92-0.81=0.11\]
Forventningsverdien E(X) i en eksponentialfordeling med intensitet \(\lambda\) er \[ \text{E}(X)=\frac{1}{\lambda} \]
Bevis E(X)
Bevis E(X)
\[ \text{E}(X)=\int_{-\infty}^{\infty} x f(x) dx=\int_{0}^{\infty} x \lambda e^{-\lambda x} dx\] Bruker så delvis integrasjon med \( \int u v'=[uv]-\int u'v\) der vi har \(u=x\), \(u'=1\) og \(v=-e^{-\lambda x}\), \(v'=\lambda e^{-\lambda x}\). \[ \text{E}(X)=[x \cdot (-e^{-\lambda x})]_0^{\infty}-\int_{0}^{\infty}1\cdot (-e^{-\lambda x})dx=0-0-[\frac{1}{\lambda}e^{-\lambda x}]_0^{\infty}=0-(0-\frac{1}{\lambda})=\frac{1}{\lambda}\]
Eksempel. Bruk av mobiltelefon blant bilførere (fortsetter). Anta at bøter skrives ut med en intensitet på \(\lambda=5\) bøter pr time, og at kontrollen startet kl 8:00. Hva er forventet tid til første bot? \[\text{E}(X)=\frac{1}{5}\] som betyr at forventet tid er 8:00 + \(\frac{1}{5}\) timer, dvs. 8:12 (12 minutter over 8).
Variansen Var(X) i en eksponentialfordeling med intensitet \(\lambda\) er \[ \text{Var}(X)=\frac{1}{\lambda^2} \]
Bevis Var(X)
Bevis Var(X)
\[ \text{Var}(X)=\text{E}(X^2)-\text{E}(X)^2\] Vi starter med \(\text{E}(X^2)\) og bruker delvis integrasjon med \(u=x^2\), \(u'=2x\) og \(v=-e^{-\lambda x}\), \(v'=\lambda e^{-\lambda x}\). \[ \text{E}(X^2)=\int_{-\infty}^{\infty}x^2f(x)dx=\int_0^{\infty} x^2 \lambda e^{-\lambda x}dx= \left[ x^2 \cdot (-e^{-\lambda x})\right]_0^{\infty}-\int_0^{\infty} 2x \cdot (-e^{-\lambda x})dx =0+2\int_0^{\infty} xe^{-\lambda x}dx \] For det siste leddet kjenner vi igjen at dette må være \(\frac{1}{\lambda}\text{E}(X)\). \[\text{E}(X^2)=0+2\frac{1}{\lambda}\int_0^{\infty}x \lambda e^{-\lambda x}=2\frac{1}{\lambda}\text{E}(X)=\frac{2}{\lambda^2}\] Setter vi det sammen: \[ \text{Var}(X)=\text{E}(X^2)-\text{E}(X)^2=\frac{2}{\lambda^2}-(\frac{1}{\lambda})^2=\frac{1}{\lambda^2}\]
Eksempel. Bruk av mobiltelefon blant bilførere (fortsetter). Anta at bøter skrives ut med en intensitet på \(\lambda=5\) bøter pr time. Hva er standardavviket til \(X\)? \[\text{SD}(X)=\sqrt{\text{Var}(X)}=\frac{1}{5}\] dvs. 12 minutter.
Ingen hukommelse Eksempel. Gitt at politiet har passet på mobilbruken i bil i 20 minutter og ikke har skrevet ut en eneste bot, hva er da sannsynligheten for at de må stå i minst 20 minutter til (dvs. i totalt minst 40 minutter) før de skriver ut sin første bot? Oversetter vi dette til timer så er sannsynligheten vi spør etter: \[ P(X > \frac{2}{3} \mid X > \frac{1}{3})=\frac{P(X > \frac{2}{3} \cap X > \frac{1}{3})}{P(X > \frac{1}{3})}= \frac{P(X > \frac{2}{3})}{P(X > \frac{1}{3})}=\frac{e^{-\lambda \cdot \frac{2}{3}}}{e^{-\lambda \cdot \frac{1}{3}}} =e^{-\lambda \cdot \frac{1}{3}}=P(X > \frac{1}{3})\] siden \(P(X>x)=1-P(X\le x)=1-(1-e^{-\lambda x})=e^{-\lambda x}\). Dermed ser vi at gitt at politiet har stått i 20 minutter uten å gi bot, er det like sannsynlig at de må stå i 20 minutter til før de gir sin første bot, som å stå i 20 minutter fra kontrollen startet. Denne egenskapen kaller vi "ingen hukommelse" og formelt sier vi \[ P(X> s+t\mid X>t)=P(X>s)\] Denne egenskapen har vi tidligere også sett hos geometrisk fordeling.
Relevante videoer: Poisson-prosess og eksponentialfordeling (17:06, Mette Langaas)
Eksempel. Vi ser på bruk av mobiltelefon blant bilførere. Politiet står oppstilt utenfor en barneskole, og gir bot til alle bilførere som bruker mobiltelefonen mens de kjører. Anta at bøter skrives ut etter en Poisson-prosess. Vi lar \(X\) være tid til femte bot skrives ut. Da vil \(X\) være gammafordelt.
Fordelingsfunksjon, \(f(x) \):
\[ f(x)= \begin{cases} \frac{1}{\beta^{\alpha} \Gamma(\alpha)} x^{\alpha-1}e^{-\frac{x}{\beta}} &\text{ for } x>0, \lambda>0 \\ 0 & \text{ ellers. } \end{cases} \] Her er \(\alpha>0\) og \(\beta>0\), og \(\Gamma\) er den såkalte gammafunksjonen (som er en generalisering av fakultet). Parameteren \(\alpha\) kalles gjerne formparameteren (shape), og når \(\alpha=1\) har vi eksponensialfordeling. Parameteren \(\beta\) kalles skalaparameter.
Grafen til sannsynlighetstettheten for forskjellige \(\alpha\) og \(\beta\) (rødt, svart, grønt og blått for \(\beta\) henholdsvis 0,5, 1, 2 og 4):
Forventningsverdien E(X) i en gammafordeling med parametere \( (\alpha,\beta\) ) er \[ \text{E}(X)=\alpha \beta \] og variansen Var(X) \[ \text{Var}(X)=\alpha\beta^2 \]
Relevante videoer:
Khikvadratfordeling (\(\chi^2\)-fordeling) er en klasse av fordelinger som ikke brukes noe særlig for å modellere fenomener (som de andre fordelingsklassene vi har sett på), men som brukes i statistisk inferens (estimering, hypotesetesting). Den har en parameter som kalles antall frihetsgrader.
Khikvadratfordelingen med \(\nu\) frihetsgrader er sannsynlighetsfordelingen til \(X=Z_1^2+Z_2^2+\cdots+Z_\nu^2\), der \(Z_1\), \(Z_2\), …, \(Z_\nu\) er uavhengige og standardnormalfordelte og \(\nu\) et positivt heltall.
Sannsynlighetstettheten til \(X\) er gitt ved \(\frac1{2^{\nu/2}\Gamma(\nu/2)}x^{\nu/2-1}e^{-x/2}\) for \(x\geq0\) og \(0\) for \(x\lt0\), der \(\Gamma\) er gammafunksjonen. Momentgenererende funksjon er gitt ved \((1-2t)^{-\nu/2}\), \(t\lt\frac12\).
Sannsynlighetstettheten til \(X\) er gitt ved \(\frac1{2^{\nu/2}\Gamma(\nu/2)}x^{\nu/2-1}e^{-x/2}\) for \(x\geq0\) og \(0\) for \(x\lt0\), der \(\Gamma\) er gammafunksjonen. Momentgenererende funksjon er gitt ved \((1-2t)^{-\nu/2}\), \(t\lt\frac12\).
La først \(\nu=1\). Vi ønsker tettheten, \(f_1\), til den transformerte variabelen \(Z_1^2\), der \(Z_1\) er standardnormalfordelt. Kumulativ fordelingsfunksjon er gitt ved \[P(Z_1^2\leq x)=P(-\sqrt x\leq Z_1\leq\sqrt x)=P(Z_1\leq\sqrt x)-P(Z_1< -\sqrt x)\] for alle \(x\geq0\). Dermed er \(f_1\) gitt ved \[ \begin{split} f_1(x)&=\frac d{dx}P(Z_1^2\leq x)=\frac d{dx}\bigl(P(Z_1\leq\sqrt x)-P(Z_1< -\sqrt x)\bigr)=\phi(\sqrt x)\cdot\frac d{dx}\sqrt x-\phi(-\sqrt x)\cdot\frac d{dx}(-\sqrt x)\\ &=\frac1{\sqrt{2\pi}}e^{-x/2}\cdot\frac1{2\sqrt x}-\frac1{\sqrt{2\pi}}e^{-x/2}\cdot\Bigl(-\frac1{2\sqrt x}\Bigr)=\frac1{2^{1/2}\sqrt\pi}x^{-1/2}e^{-x/2}, \end{split} \] der \(\phi\) er tettheten til en standardnormalfordelt variabel. Dette stemmer overens med den generelle tettheten ovenfor (husk at \(\Gamma(\frac12)=\sqrt\pi\)).
La oss så vise at \(f(x)=\frac1{2^{\nu/2}\Gamma(\nu/2)}x^{\nu/2-1}e^{-x/2}\), \(x\geq0\), \(f(x)=0\) ellers, virkelig er en tetthet: For det første er \(f(x)\geq0\) for alle \(x\), og for det andre er \[ \begin{split} \Gamma\Bigl(\frac\nu2\Bigr)&=\int_0^\infty u^{\nu/2-1}e^{-u}du\quad\text{(definisjon av gammafunksjonen)}\\ &=\int_0^\infty\frac1{2^{\nu/2}}x^{\nu/2-1}e^{-x/2}dx\quad\text{(substitusjon }x=2u\text{, }dx=2du\text{),} \end{split} \] slik at \(\int_{-\infty}^\infty f(x)\,dx=\frac1{\Gamma(\nu/2)}\int_0^\infty\frac1{2^{\nu/2}}x^{\nu/2-1}e^{-x/2}dx=\frac1{\Gamma(\nu/2)}\Gamma(\nu/2)=1\).
Momentgenererende funksjon \(M\) til en variabel \(Y\) med tetthet \(f\) er gitt ved \[ \begin{split} M(t)&=Ee^{tY}=\int_{-\infty}^{\infty}e^{ty}f(y)\,dy =\int_0^{\infty}e^{ty}\frac1{2^{\nu/2}\Gamma(\nu/2)}y^{\nu/2-1}e^{-y/2}dy =\int_0^{\infty}\frac1{2^{\nu/2}\Gamma(\nu/2)}y^{\nu/2-1}e^{-(1-2t)y/2}dy\\ &=(1-2t)^{-\nu/2}\int_0^{\infty}\frac1{2^{\nu/2}\Gamma(\nu/2)}u^{\nu/2-1}e^{-u/2}dy\quad\text{(substitusjon }u=(1-2t)y\text{, }du=(1-2t)dy\text)\\ &=(1-2t)^{-\nu/2}\int_0^{\infty}f(u)\,du=(1-2t)^{-\nu/2}. \end{split} \] Vi må kreve \(u>0\), altså \(t<\frac12\), for at integralet skal konvergere.
Nå vet vi at \(Z_1^2\) har tetthet \(f_1\) og momentgenererende funksjon \(M_1\), der \(M_1\) er lik \(M\) med \(\nu=\frac12\). Hva med \(X=Z_1^2+Z_2^2+\cdots+Z_\nu^2\)? Momentgenererende funksjon til \(X\) er ifølge regelen for momentgenererende funksjon av sum av uavhengige variabler (se under «Regneregler for momentgenererende funksjoner») gitt ved \[ \underbrace{M_1(t)M_1(t)\cdots M_1(t)}_{\nu\text{ faktorer}}=(1-2t)^{-\nu/2},\quad t<\frac12, \] altså \(M(t)\). Men vi har også sett at en variabel med tetthet \(f\) har momentgenererende funksjon \(M\), og det betyr at en variabel med momentgenererende funksjon \(M\) har tetthet \(f\).
Figur: Grafen til sannsynlighetstettheten til en khikvadratfordelt variabel med \(\nu\) frihetsgrader for forskjellige \(\nu\).
Hvis du slår opp på gammafordelingen, ser du at khikvadratfordelingen med \(\nu\) frihetsgrader er det samme som gammafordeling med \(\alpha=\nu/2\) og \(\beta=2\). Forventningsverdien til en khikvadratfordelt variabel med \(\nu\) frihetsgrader er \(\nu\) og variansen \(2\nu\). Dette kan vises ved å bruke forbindelsen til gammafordeling, eller ved å bruke momentgenererende funksjon.
Hvis \(X_1\), \(X_2\), …, \(X_n\) er uavhengige og khikvadratfordelte med henholdsvis \(\nu_1\), \(\nu_2\), …, \(\nu_n\) frihetsgrader, er \(\sum_{i=1}^nX_i\) khikvadratfordelt med \(\sum_{i=1}^n\nu_i\) frihetsgrader.
Hvis \(X_1\), \(X_2\), …, \(X_n\) er uavhengige og khikvadratfordelte med henholdsvis \(\nu_1\), \(\nu_2\), …, \(\nu_n\) frihetsgrader, er \(\sum_{i=1}^nX_i\) khikvadratfordelt med \(\sum_{i=1}^n\nu_i\) frihetsgrader.
Momentgenererende funksjon til \(\sum_{i=1}^nX_i\) er ifølge regelen for momentgenererende funksjon av sum av uavhengige variabler (se under Regneregler for momentgenererende funksjoner) gitt ved \[ \prod_{i=1}^n(1-2t)^{-\nu_i/2}=(1-2t)^{-\sum_{i=1}^n\nu_i/2}. \] Men dette er momentgenererende funksjon til en khikvadratfordelt variabel med \(\sum_{i=1}^n\nu_i\) frihetsgrader.
Et nyttig resultat som ikke står i læreboka: Anta at \(X_1\) og \(X_2\) er uavhengige, at \(X_1+X_2\) er khikvadratfordelt med \(\nu\) frihetsgrader, og at \(X_1\) er khikvadratfordelt med \(\nu_1\) frihetsgrader, der \(\nu_1\lt\nu\). Da er \(X_2\) khikvadratfordelt med \(\nu-\nu_1\) frihetsgrader.
Et nyttig resultat som ikke står i læreboka: Anta at \(X_1\) og \(X_2\) er uavhengige, at \(X_1+X_2\) er khikvadratfordelt med \(\nu\) frihetsgrader, og at \(X_1\) er khikvadratfordelt med \(\nu_1\) frihetsgrader, der \(\nu_1\lt\nu\). Da er \(X_2\) khikvadratfordelt med \(\nu-\nu_1\) frihetsgrader.
Momentgenerende funksjon til \(X_1+X_2\) er gitt ved \((1-2t)^{-\nu/2}\), og momentgenerende funksjon til \(X_1\) er gitt ved \((1-2t)^{-\nu_1/2}\). La \(M(t)\) være momentgenererende funksjon til \(X_2\).
Siden \(X_1\) og \(X_2\) er uavhengige, vet vi fra regneregler for momentgenererende funksjoner (klikk på relevant lenke) at \((1-2t)^{-\nu/2}\)=\((1-2t)^{-\nu_1/2}M(t)\). Dette gir \(M(t)=(1-2t)^{-(\nu-\nu_1)/2}\), som vi gjenkjenner som momentgenererende funksjon til en khikvadratfordelt variabel med \(\nu-\nu_1\) frihetsgrader.
Hvis \(X_1\), \(X_2\), …, \(X_n\) er uavhengige og normalfordelte med forventningsverdi \(\mu\) og standardavvik \(\sigma\), er \(\frac1{\sigma^2}\sum_{i=1}^n(X_i-\mu)^2\) og \(\frac1{\sigma^2}\sum_{i=1}^n(X_i-\bar X)^2=\frac{n-1}{\sigma^2}S^2\) khikvadratfordelt med henholdsvis \(n\) og \(n-1\) frihetsgrader. Et annet nyttig resultat er at \(\bar X\) og \(S^2\) uavhengige.
Hvis \(X_1\), \(X_2\), …, \(X_n\) er uavhengige og normalfordelte med forventningsverdi \(\mu\) og standardavvik \(\sigma\), er \(\frac1{\sigma^2}\sum_{i=1}^n(X_i-\mu)^2\) og \(\frac1{\sigma^2}\sum_{i=1}^n(X_i-\bar X)^2=\frac{n-1}{\sigma^2}S^2\) khikvadratfordelt med henholdsvis \(n\) og \(n-1\) frihetsgrader. Et annet nyttig resultat er at \(\bar X\) og \(S^2\) uavhengige.
Det første følger fra at \((X_i-\mu)/\sigma\), \(i=1\), \(2\), …, \(n\), er uavhengige og standardnormalfordelte og definisjonen av kvhikvadratfordelingen ovenfor.
At \(\bar X\) og \(S^2\) uavhengige er ikke pensum, men beviset er nesten innen rekkevidde: Det bygger på transformasjoner av \(n\)-dimensjonale stokastiske variabler (tilfellet \(n=2\) står i læreboka – teorem 7.4 i 9. utgave). Hvis du er interessert, kan du lese om dette i boka Statistical inference, 2. utgave, av Casella og Berger (Brooks/Cole, 2002), s. 184–186. Der finner du også på s. 218–219 beviset for at \(\bar X\) og \(S^2\) er uavhengige.
Vi skisserer et bevis for at \(\frac1{\sigma^2}\sum_{i=1}^n(X_i-\bar X)^2=\frac{n-1}{\sigma^2}S^2\) er khikvadratfordelt med \(n-1\) frihetsgrader:
\[ \begin{split} \sum_{i=1}^n(X_i-\mu)^2&=\sum_{i=1}^n((X_i-\bar X)+(\bar X-\mu))^2\\ &=\sum_{i=1}^n(X_i-\bar X)^2+n(\bar X-\mu)^2+2(\bar X-\mu)\sum_{i=1}^n(X_i-\bar X)\\ &=\sum_{i=1}^n(X_i-\bar X)^2+n(\bar X-\mu)^2\quad\text{(siden \(\sum_{i=1}^n(X_i-\bar X)=0\))}. \end{split} \]
Dermed er \(\frac1{\sigma^2}\sum_{i=1}^n(X_i-\mu)^2=\left(\frac{\bar X-\mu}{\sigma/\sqrt n}\right)^2+\frac1{\sigma^2}\sum_{i=1}^n(X_i-\bar X)^2\).
Vi vet at venstre side er khikvadratfordelt med \(n\) frihetsgrader, og at \(\left(\frac{\bar X-\mu}{\sigma/\sqrt n}\right)^2\) er khikvadratfordelt med \(1\) frihetsgrad (det er kvadratet av en standardnormalfordelt variabel).
Første ledd på høyre side er en funksjon av \(\bar X\), og andre ledd en funksjon av \(S^2\). Da vet vi at de to leddene er uavhengige. Siden summen av de to leddene er khikvadratfordelt med \(n\) frihetsgrader, og det ene leddet er khikvadratfordelt med \(1\) frihetsgrad og de to leddene er uavhengige, følger det av et resultat ovenfor at det andre leddet er khikvadratfordelt med \(n-1\) frihetsgrader.
T-fordeling er, som khikvadratfordeling, en klasse av fordelinger som brukes i statistisk inferens (estimering, hypotesetesting). Også t-fordeling har en parameter som kalles antall frihetsgrader.
T-fordelingen med \(\nu\) frihetsgrader er sannsynlighetsfordelingen til \(T=Z/\sqrt{V/\nu}\), der \(Z\) er standardnormalfordelt, \(V\) khikvadratfordelt med \(\nu\) frihetsgrader, og \(Z\) og \(V\) er uavhengige.
Det kan virke merkelig at man skal være interessert i fordelingen til en slik variabel. Men hvis \(X_1\), \(X_2\), …, \(X_n\) er uavhengige og normalfordelte med forventningsverdi \(\mu\) og standardavvik \(\sigma\), vet vi at \(Z=(\bar X-\mu)/(\sigma/\sqrt n)\) er standardnormalfordelt. Fra resultatene nevnt mot slutten under khikvadratfordeling vet vi i tillegg at \(V=\frac{n-1}{\sigma^2}S^2\) er khikvadratfordelt med \(n-1\) frihetsgrader, og at \(Z\) og \(V\) uavhengige (det siste følger av at \(\bar X\) og \(S^2\) er uavhengige – dermed er også en funksjon av \(\bar X\) og en funksjon av \(S^2\) uavhengige). I dette tilfellet får vi etter definisjonen over at \[T=\frac Z{\sqrt{V/(n-1)}}=\frac{(\bar X-\mu)/(\sigma/\sqrt n)}{\sqrt{\frac{n-1}{\sigma^2}S^2/(n-1)}}=\frac{\bar X-\mu}{S/\sqrt n}\] er t-fordelt med \(n-1\) frihetsgrader.
Denne observatoren, \(T\), ser akkurat ut som observatoren vi bruker når vi gjør inferens om \(\mu\), forventningsverdi, i normalfordeling når \(\sigma\) er kjent, bare at \(\sigma\) er byttet ut med \(S\). Det gir oss håp om at vi kan bruke \(T\) til inferens om \(\mu\) i en normalfordeling når \(\sigma\) er ukjent, og det er nettopp det som er tilfelle. Du kan lese mer om hvordan under Regneregler og regneprosedyrer for Konfidensintervall og prediksjonsintervall (og for hypotesetesting når dette blir lagt ut).
Sannsynlighetstettheten til en t-fordelt variabel med \(\nu\) frihetsgrader er gitt ved \(\frac{\Gamma((\nu+1)/2)}{\Gamma(\nu/2)\sqrt{\pi\nu}}\bigl(1+\frac{t^2}\nu\bigr)^{-(\nu+1)/2}\) for alle reelle tall \(t\), der \(\Gamma\) er gammafunksjonen:
Sannsynlighetstettheten til en t-fordelt variabel med \(\nu\) frihetsgrader er gitt ved \(\frac{\Gamma((\nu+1)/2)}{\Gamma(\nu/2)\sqrt{\pi\nu}}\bigl(1+\frac{t^2}\nu\bigr)^{-(\nu+1)/2}\) for alle reelle tall \(t\), der \(\Gamma\) er gammafunksjonen:
La \(T=Z/\sqrt{V/\nu}\), der \(Z\) er standardnormalfordelt, \(V\) khikvadratfordelt med \(\nu\) frihetsgrader, og \(Z\) og \(V\) er uavhengige. Vi skal finne sannsynlighetstettheten til \(T\).
Den betingede fordelingen til \(T\) gitt \(V=x\) er fordelingen til \(Z/\sqrt{x/\nu}=\sqrt{\nu/x}\,Z\). En normalfordelt variabel multiplisert med et tall er normalfordelt. Forventningsverdien blir i dette tilfellet \(0\) og variansen \(\nu/x\). Den betingede sannsynlighetstettheten til \(T\) gitt \(V=x\) blir dermed gitt ved \[f_{T\mid V=x}(t)=\sqrt{\frac x{2\pi\nu}}e^{-xt^2/(2\nu)}\] (se normalfordeling). Sannsynlighetstettheten til \(V\) er gitt ved \[f_V(x)=\frac1{2^{\nu/2}\,\Gamma(\nu/2)}x^{\nu/2-1}e^{-x/2}\] (se khikvadratfordeling). Simultantettheten til \((T,V)\) er dermed gitt ved \[f(t,x)=f_{T\mid V=x}(t)\,f_V(x)=\frac1{2^{(\nu+1)/2}\,\Gamma(\nu/2)\,\sqrt{\pi\nu}}x^{(\nu-1)/2}e^{-x(1+t^2/\nu)/2}\]
Sannsynlighetstettheten til \(T\) er en marginaltetthet til \((T,V)\): \[ \begin{split} f_T(t)=\int_0^\infty f(t,x)\,dx&=\frac1{2^{(\nu+1)/2}\,\Gamma(\nu/2)\,\sqrt{\pi\nu}}\int_0^\infty x^{(\nu-1)/2}e^{-x(1+t^2/\nu)/2}\,dx\\ &=\frac1{2^{(\nu+1)/2}\,\Gamma(\nu/2)\,\sqrt{\pi\nu}}\int_0^\infty\Bigl(\frac{2u}{1+t^2/\nu}\Bigr)^{(\nu-1)/2}e^{-u}\frac{2\,du}{1+t^2/\nu}\\ &=\frac1{\Gamma(\nu/2)\,\sqrt{\pi\nu}}\biggl(1+\frac{t^2}\nu\biggr)^{-(\nu+1)/2}\int_0^\infty u^{(\nu-1)/2}e^{-u}du\\ &=\frac1{\Gamma(\nu/2)\,\sqrt{\pi\nu}}\biggl(1+\frac{t^2}\nu\biggr)^{-(\nu+1)/2}\Gamma\Bigl(\frac{\nu+1}2\Bigr) \end{split} \] (husk at \(\Gamma(z)=\int_0^\infty z^{x-1}e^{-x}dx\). Her har vi brukt substitusjonen \(u=\frac x2(1+t^2/\nu\).
Figur: Grafen til sannsynlighetstettheten til en t-fordelt variabel med \(\nu\) frihetsgrader for forskjellige \(\nu\). Det kan vises at tettheten nærmer seg standardnormalfordelingstettheten når \(\nu\) blir stor, \(\frac{\Gamma((\nu+1)/2)} {\Gamma(\nu/2)\sqrt{\pi\nu}}\bigl(1+\frac{x^2}\nu\bigr)^{-(\nu+1)/2}\to\frac1{\sqrt{2\pi}}e^{-x^2/2}\) når \(\nu\to\infty\). Dette illustreres av figuren. I praktiske anvendelser brukes derfor for enkelthets skyld ofte standardnormalfordeling isteden for t-fordeling når \(\nu\geq30\).
En variabel som er t-fordelt med \(\nu\geq2\) frihetsgrader, har forventningsverdi \(0\), noe som er rimelig siden grafen til tettheten er symmetrisk om andreaksen. Forventningsverdien eksisterer ikke for \(\nu=1\) (integralet som definerer forventningsverdien konvergerer ikke). Variansen er \(\nu/(\nu-2)\) for \(\nu\geq3\). Momentgenererende funksjon eksisterer ikke.