Temaside for TMA4240/TMA4245 Statistikk
Begreper, definisjoner og tolkninger
Funksjoner av stokastiske variabler
Anta at vi har en stokastisk variabel \(X\) og at vi kjenner sannsynlighetsfordelingen \(f(x)\) til denne. Anta så at vi definerer en ny stokastisk variabel \(Y=u(X)\), der \(u(\cdot)\) er en gitt matematisk funksjon, for eksempel \(Y=u(X)=\ln (X)\). Hvilken sannsynlighetsfordeling vil da \(Y\) ha? Mer generelt kan vi ha flere stokastiske variabler \(X_1,X_2,\ldots,X_n\) med en kjent simultan sannsynlighetsfordeling \(f(x_1,x_2,\ldots,x_n)\) og så definere en ny stokastisk variabel \(Y=u(X_1,X_2,\ldots,X_n)\) der \(u\) er en gitt funksjon av \(n\) variabler. Igjen kan vi stille samme spørsmål, hvilken sannsynlighetsfordeling har \(Y\)? Det finnes ingen generell fremgangsmåte som kan benytes til å finne svaret på dette spørsmålet i alle situasjoner. Hvordan man kan regne seg frem til svaret avhenger av om \(u\) er en funksjon av en eller flere stokastiske variabler og av hvilke egenskaper funksjonen \(u\) har. På denne temasiden skal vi se på tre fremgangsmåter for å bestemme sannsynlighetsfordelingen til \(Y\) i en slik situasjon, 1) transformasjon av en (diskret eller kontinuerlig) stokastisk variabel, 2) bruk av momentgenererende funksjoner, og 3) fordeling for ekstrem- og ordningsvariabler.
Introduksjonsvideo: Funksjoner av stokastiske variabler (14:03, Håkon Tjelmeland)
Sentrale begreper
Trykk på det grå feltet for mer informasjon om temaet.
Transformasjon av en diskret stokastisk variabel
Transformasjon av en diskret stokastisk variabel
Teorem: Anta at \(X\) er en diskret stokastisk variabel med punktsannsynlighet \(f(x)=P(X=x)\). La \(Y=u(X)\) definere en én-entydig sammenheng mellom \(X\) og en ny stokastisk variabel \(Y\). Siden sammenhengen mellom \(X\) og \(Y\) er antatt å være én-entydig har \(u(x)\) en tilhørende invers funksjon, som vi betegner med \(w(y)\), slik at \[ Y=u(X) ~~ \Leftrightarrow ~~ X=w(Y). \] Punktsannsynligheten til \(Y\) er da gitt ved \[ g(y) = P(Y=y) = f(w(y)). \]
Bevis
Bevis
Siden sammenhengen mellom \(X\) og \(Y\) er én-entydig får vi at
\[
u(X)=y ~~ \Leftrightarrow ~~ X=w(y)
\]
og dermed også at
\[
g(y)=P(Y=y) = P(u(X)=y) = P(X=w(y)) = f(w(y)),
\]
og teoremet er bevist.
Kommentar: Det er verdt å merke seg at verdimengdene til \(f(x)\) og \(g(y)\) er identiske. Forskjellen mellom de to punktsannsynlighetene ligger i definisjonsmendene. Dette er illustrert i plottene under, hvor \(X\) er geometrisk fordelt med parameter \(p=0.4\) og \(Y=u(X)=\ln (X)\). Merk at her er \(f(1)=g(0)\), \(f(2)=g(\ln(2))\), \(f(3)=g(\ln(3))\) og så videre.
Relevante videoer:
Relevante oppgaver:
Teorem: Anta at \(X\) er en koninuerlig stokastisk variabel med sannsynlighetstetthet \(f(x)\). La \(Y=u(X)\) definere en én-entydig sammenheng mellom \(X\) og en ny stokastisk variabel \(Y\). Siden sammenhengen mellom \(X\) og \(Y\) er antatt å være én-entydig har \(u(x)\) en tilhørende invers funksjon, som vi betegner med \(w(y)\), slik at \[ Y=u(X) ~~ \Leftrightarrow ~~ X=w(Y). \] Sannsynlighetstettheten til \(Y\) er da gitt ved \[ g(y) = f(w(y)) \cdot |w^\prime(y)|. \]
Bevis
Bevis
En én-entydig funksjon er enten strengt voksende eller strengt avtagende. Vi beviser først teoremet for tilfellet at \(u(X)\) er strengt voksende og deretter for tilfellet at \(u(X)\) er strengt avtagende.
Bevis når \(u(X)\) er strengt voksende: Når \(u(X)\) er strengt voksende vil også den tilhørende inverse funksjonen, \(w(Y)\), være strengt voksende. For vilkårlige verdier \(a<b\) har vi da at \(w(a)<w(b)\) og som illustrert i figuren under får vi at \[ a < Y < b ~~ \Leftrightarrow ~~ w(a) < X < w(b). \]
Dermed må vi også ha \[ P(a<Y<b) = P(w(a) < X < w(b)). \] Sannsynlighetstettheten til \(X\) er \(f(x)\) og vi lar \(g(y)\) betegne sannsynlighetstettheten til \(Y\). De to sannsynlighetene i ligningen over kan dermed skrives som integraler over sine respektive sannsynlighetstettheter, \[ P(a<Y<b) = \int_a^b g(y)\text{d}y ~~~~~~ \text{og} ~~~~~~ P(w(a) < X < w(b)) = \int_{w(a)}^{w(b)} f(x)\text{d}x. \] Siden de to sannsynlighetene er like må altså også disse to integralene være like. Vi kan omskrive det siste av de to integralene ved å substituere med \(x=w(y)\Leftrightarrow y=u(x)\), der \(\text{d}x = w^\prime(y)\text{d}y\), \[ \int_{w(a)}^{w(b)} f(x)\text{d}x = \int_{u(w(a))}^{u(w(b))} f(w(y))\cdot w^\prime(y)\text{d}y = \int_{a}^{b} f(w(y)) \cdot w^\prime(y)\text{d}y, \] der vi i den siste overgangen har benyttet at \(u(x)\) og \(w(y)\) er inverse funksjoner slik at \(u(w(a))=a\) og \(u(w(b))=b\). Dermed har vi at \[ \int_a^b g(y)\text{d}y = \int_{a}^{b} f(w(y)) \cdot w^\prime(y)\text{d}y, \] og dette skal gjelde for alle \(a<b\). Dette kan bare skje ved at integrandene er like, \[ g(y) = f(w(y)) \cdot w^\prime(y). \] Siden er \(w(y)\) er en strengt voksende funksjon er \(w^\prime(y)\geq 0\) slik at dette også kan skrives som \[ g(y) = f(w(y)) \cdot |w^\prime(y)| \] og teoremet er bevist for tilfellet at \(u(X)\) er strengt voksende.
Bevis når \(u(X)\) er strengt avtagende: Beviset når \(u(X)\) er strengt avtagende er i store trekk tilsvarende som når \(u(X)\) er strengt voksende, men noen viktige detaljer blir annerledes. Når \(u(X)\) er strengt avtagende er den inverse funksjonen \(w(Y)\) også strengt avtagende. For vilkårlige verdier \(a<b\) har vi da at \(w(a)>w(b)\) og som illustrert i figuren under får vi at \[ a < Y < b ~~ \Leftrightarrow ~~ w(b) < X < w(a). \]
Dermed må vi også ha
\[
P(a<Y<b) = P(w(b) < X < w(a)).
\]
De to sannsynlighetene i ligningen over kan også nå skrives som integraler over sine respektive sannsynlighetstettheter,
\[
P(a<Y<b) = \int_a^b g(y)\text{d}y ~~~~~~ \text{og} ~~~~~~ P(w(b) < X < w(a)) = \int_{w(b)}^{w(a)} f(x)\text{d}x.
\]
Siden de to sannsynlighetene er like må igjen disse to integralene være like. Også nå kan vi omskrive det siste integralet ved å substituere med \(x=w(y)\Leftrightarrow y=u(x)\), der \(\text{d}x = w^\prime(y)\text{d}y\),
\[
\int_{w(b)}^{w(a)} f(x)\text{d}x = \int_{u(w(b))}^{u(w(a))} f(w(y))\cdot w^\prime(y)\text{d}y =
\int_{b}^{a} f(w(y)) \cdot w^\prime(y)\text{d}y = - \int_{a}^{b} f(w(y)) \cdot w^\prime(y)\text{d}y,
\]
der vi i den andre overgangen har benyttet at \(u(x)\) og \(w(y)\) er inverse funksjoner slik at \(u(w(a))=a\) og \(u(w(b))=b\), og i den siste overgangen har vi benyttet at et integral bytter fortegn når integrasjonsgrensene byttes om. Dermed har vi at
\[
\int_a^b g(y)\text{d}y = - \int_{a}^{b} f(w(y)) \cdot w^\prime(y)\text{d}y,
\]
og dette skal gjelde for alle \(a<b\). Dette kan bare skje ved at integrandene er like,
\[
g(y) = - f(w(y)) \cdot w^\prime(y).
\]
Siden er \(w(y)\) er en strengt avtagende funksjon er \(w^\prime(y)\leq 0\) slik at dette også kan skrives som
\[
g(y) = f(w(y)) \cdot |w^\prime(y)|
\]
og teoremet er dermed bevist også for tilfellet at \(u(X)\) er strengt avtagende.
Tolkning: I teoremet forutsettes det at sammenhengen mellom \(X\) og \(Y=u(X)\) er én-entydig. I praksis betyr dette at \(u(x)\) enten er en strengt voksende eller strengt avtagende funksjon. Dersom \(u(x)\) er en strengt voksende funksjon må man ha at \[ P(a < X < b) = P(u(a) < u(X) < u(b)) = P(u(a) < Y < u(b)) \] for enhver \(a<b\). Hvis vi uttrykker sannsynlighetene \(P(a<X<b)\) og \(P(u(a)<Y<u(b))\) som integraler over de respektive sannsynlighetstetthetene får vi dermed at må ha \[ \int_a^b f(x)\text{d}x = \int_{u(a)}^{u(b)} g(y)\text{d}y, \] og det er denne integralligningen som gir at \(g(y)\) må være som gitt i teoremet. I figuren under er dette illustrert for tilfellet \(X\sim n(x;0,1)\) og \(Y=u(X) = e^X\) når \(a=-0.5\) og \(b=1\). Arealet av det grønne området i intervallet \((-0.5,1)\) i figuren til venstre er altså her likt arealet av det grønne området i intervallet \((e^{-0.5},e^1)=(0.6065,2.7183)\) i figuren til høyre.
Dersom \(u(x)\) er en strengt avtagende funksjon blir situasjonen litt annerledes. Da må man ha at \[ P(a<X<b) = (u(b) < u(X) < u(a)) = P(u(b) < Y < u(a)) \] for enhver \(a<b\). Hvis vi nå uttrykker sannsynlighetene som integraler over de respektive sannsynlighetstetthetene får vi integrallligningen \[ \int_a^b f(x) \text{d}x = \int_{u(b)}^{u(a)} g(y)\text{d}y \] som igjen gir at \(g(y)\) må være som gitt i teoremet. Denne situasjonen er illustrert i figuren under for tilfellet at \(X\) er uniformfordelt på \([0,1]\) og \(Y=u(X)=-\ln X/0.6\) når \(a=0.25\) og \(b=0.75\). Arealet av det grønne området i intervallet \((0.25,0.75)\) i figuren til venstre er altså her likt arealet av det grønne området i intervallet \((-\ln(0.75)/0.6,-\ln(0.25)/0.6)=(0.4795,2.3105)\) i figuren til høyre.
Beregning av \(g(y)\): En trinn for trinn beskrivelse av hvordan man regner ut \(g(y)\) basert på teoremet over er gitt på temasiden med regneprosedyrer for funksjoner av stokastiske variabler.
Generaliseringer: Teoremet gitt her kan generaliseres i ulike retninger. Man kan formulere et teorem som sier hva som skjer hvis \(u(X)\) ikke er én-entydig, og man kan også angi hva som skjer når man har én-entydige transformasjoner av mer en én stokastisk variabel. Begge disse generaliseringene er diskutert i læreboka vi benytter.
Relevante videoer:
\(\ \ \ \)Transformasjonsformelen (19:14, Håkon Tjelmeland)
\(\ \ \ \)Transformasjoner av stokastiske variabler (16:01, Haakon Bakka)
Relevante oppgaver:
\(\ \ \ \)Eksamen mai 2013, oppgave 3c (b,n,e).
\(\ \ \ \)Eksamen august 2012, oppgave 3d (b).
\(\ \ \ \)Eksamen august 2010, oppgave 1a (b,n,e).
\(\ \ \ \)Eksamen juni 2010, oppgave 2c (b,n,e).
Momentgenererende funksjoner
Momentgenererende funksjoner
Definisjon: Momentgenererende funksjon for en stokastisk variabel \(X\) er gitt som \[ M_X(t) = \text{E}\left[e^{tX}\right]. \]
Kommentar: Dersom \(X\) er en diskret stokastisk variabel med punktsannsynlighet \(f(x)\) blir dermed \[ M_X(t) = \text{E}\left[ e^{tX}\right] = \sum_x e^{tx} f(x), \] mens dersom \(X\) er en kontinuerlig stokastisk variabel med sannsynlighetstetthet \(f(x)\) får man at \[ M_X(t) = \text{E}\left[ e^{tX}\right] = \int_{-\infty}^{\infty} e^{tx} f(x)\text{d}x. \]
Notasjon: En momentgenererende funksjon \(M_X(t)\) er en vanlig matematisk funksjon slik man er vant til fra matematikk, og det er vanlig å benytte \(t\) for den uavhengige variabelen. Navnet på funksjonen er \(M_X\) der indeksen \(X\) minner oss på at dette er momentgenererende funksjon for \(X\). Merk at man også kan regne ut momentgenererende funksjon for en funksjon av \(X\), for en konstant \(a\) er for eksempel momentgenererende funksjon for den stokastiske variabelen \(aX\) gitt ved \[ M_{aX}(t) = \text{E}\left[ e^{taX}\right]. \] Tilsvarende er \(M_{X+a}(t)\) momentgenererende funksjon for \(X + a\).
Tolkning: Det er ingen naturlig tolkning av en momentgenererende funksjon. Som for enhver annen funksjon kan man selvfølgelig plotte opp \(M_X(t)\), men ut fra et slikt plott er det ikke mulig å angi hvilke egenskaper \(X\) har. Det mest hensiktsmessige er å betrakte momentgenererende funksjoner som et matematisk verktøy som vi kan benytte til å bevise en del sammenhenger mellom ulike typer av sannsynlighetsfordelinger.
Anvendelse: Den viktigste anvendelsen av momentgenererende funksjoner er for å bevise teoremer som angir hvilken fordeling en (som oftest lineær) funksjon av en eller flere stokastiske variabler har. Slike beviser er basert på et teorem som sier at hvis de momentgenererende funksjonene til to stokastiske variabler er like er også sannsynlighetsfordelingene til disse to variablene identiske. Dette teoremet er formulert og diskutert under. I anvendelser av dette teoremet trenger man som oftest også regneregler for momentgenerende funksjoner, og disse er diskutert på temasiden med regneregler og regneprosedyrer for funksjoner av stokastiske variabler. På samme temaside finnes også en trinn for trinn beskrivelse av hvordan bevisene typisk er oppbygd.
Teorem: La \(X\) og \(Y\) være to stokastiske variabler med momentgenererende funksjoner henholdvis \(M_X(t)\) og \(M_Y(t)\). Dersom \[ M_X(t)=M_Y(t) ~~\text{for alle}~~ t, \] dvs dersom funksjonene \(M_X(t)\) og \(M_Y(t)\) er like, er sannsynlighetsfordelingene for \(X\) og \(Y\) også identiske.
Kommentar: Dette teoremet betyr at for å bevise at to stokastiske variabler \(X\) og \(Y\) har samme sannsynlighetsfordeling er det tilstrekkelig å vise at \(M_X(t)=M_Y(t)\).
Teorem: La \(X\) være en stokastisk variabel med momentgenererende funksjon \(M_X(t)\). For ethvert positvt hetall \(r\) har man da at \[ M_X^{(r)}(0) = \text{E}\left[ X^r\right]. \]
Kommentar: For å regne ut \(\text{E}\left[ X_r\right]\) skal man altså først derivere \(M_X(t)\) \(r\) ganger med hensyn på \(t\), slik at man får et uttrykk for \(M_X^{(r)}(t)\), og deretter sette \(t=0\) inn i dette uttrykket.
Kommentar: \(\text{E}\left[ X^r\right]\) kalles \(r\)-te ordens moment for \(X\). Man kan dermed si at \(M_X(t)\) genererer momentene til \(X\) og dette er bakgrunnen for at \(M_X(t)\) kalles den momentgenererende funksjon for \(X\).
Spesialtilfeller: Ved å sette \(r=1\) i teoremet over får man \[ M_X^\prime (0) = \text{E}[X], \] og ved å sette \(r=2\) får man \[ M_X^{\prime\prime}(0) = \text{E}\left[ X^2\right]. \] Dermed får man også at variansen til \(X\) er gitt ved \[ \text{Var}[X] = M_X^{\prime\prime}(0) - \left( M_X^\prime (0)\right)^2. \]
Relevante videoer:
\(\ \ \ \)Bruk av momentgenererende funksjoner (22:57, Håkon Tjelmeland)
Relevante oppgaver:
\(\ \ \ \)Eksamen august 2013, oppgave 2c (b,n,e).
\(\ \ \ \)Eksamen mai 2013, oppgave 3e (b,n,e).
\(\ \ \ \)Eksamen august 2012, oppgave 3d (b).
\(\ \ \ \)Eksamen august 2011, oppgave 4c (b).
Ekstremvariabler
Ekstremvariabler
Definisjon: La \(X_1,X_2,\ldots,X_n\) være uavhengige stokastiske variabler, alle med samme sannsynlighetsfordeling. Ekstremvariablene for disse er da \[ X_{(1)} = \min\{ X_1,X_2,\ldots,X_n\} ~~~~~\text{og}~~~~~ X_{(n)} = \max\{ X_1,X_2,\ldots,X_n\}. \]
Notasjon: Det er vanlig å la \(X_{(k)}\) betegne den \(k\)-te minste av \(X_1,X_2,\ldots,X_n\). Med denne notasjonen blir \(X_{(1)}\) den minste av \(X_1,X_2,\ldots,X_n\) slik som angitt i teoremet over. \(X_{(n)}\) er den \(n\)-te minste, dvs. den største av \(X_1,X_2,\ldots,X_n\).
Kommentar: Man kan merke seg at ekstremvariablene \(X_{(1)}\) og \(X_{(n)}\) er funksjoner av de stokastiske variablene \(X_1,X_2,\ldots,X_n\) selv om det ikke er vanlig å benytte den vanlige funksjonsnotasjonen \(u(X_1,X_2,\ldots,X_n)\) i forbindelse med ekstremvariablene.
Illustrasjon: Anta at man har et system bestående av \(n\) komponenter, og at \(X_1,X_2,\ldots,X_n\) er levetiden til hver av disse \(n\) komponentene. Anta videre at systemet kun fungerer så lenge samtlige \(n\) komponenter fungerer. Da blir \(X_{(1)}=\min\{ X_1,X_2,\ldots,X_n\}\) levetiden til systemet. Denne situasjonen kan illustreres ved en seriekobling, som vist i følgende figur.
Anta igjen at har et system bestående av \(n\) komponenter, og at \(X_1,X_2,\ldots,X_n\) er levetiden til hver av disse \(n\) komponentene. Anta nå at systemet fungerer så lenge minst en av de \(n\) komponentene fungerer. Da blir blir levetiden til systemet \(X_{(n)}=\max\{ X_1,X_2,\ldots,X_n\}\). Denne situasjonen kan illustreres ved en parallellkobling, som vist i følgende figur.
Teorem: La \(X_1,X_2,\ldots,X_n\) være uavhengige stokastiske variabler, alle med samme sannsynlighetsfordeling \(f_X(x)\) og kumulativ sannsynlighetsfordeling \(F_X(x)\). De kumulativ sannsynlighetsfordeling for \(X_{(1)}\) og \(X_{(n)}\) er da henholdsvis \[ F_{X_{(1)}}(x) = P(X_{(1)} \leq x) = 1 - \left( 1 - F_X(x)\right)^n \] og \[ F_{X_{(n)}}(x) = P(X_{(n)} \leq x) = \left( F_X(x)\right)^n. \] Dersom \(X_1,X_2,\ldots,X_n\) er kontinuerlige stokastiske variabler er sannsynlighetstetthetene til \(X_{(1)}\) og \(X_{(n)}\) henholdsvis \[ f_{X_{(1)}}(x) = n \left( 1 - F_X(x)\right)^{n-1} f_X(x) \] og \[ f_{X_{(n)}}(x) = n\left( F_X(x)\right)^{n-1} f_X(x). \]
Bevis
Bevis
Bevis av formel for \(F_{X_{(n)}}(x)\): Vi har åpenbart at den største av \(X_1,X_2,\ldots,X_n\) er mindre enn eller lik et tall \(x\) hvis og bare hvis alle \(X_1,X_2,\ldots,X_n\) er mindre enn eller lik \(x\). Matematisk kan dette uttrykkes som \[ X_{(n)} = \max\{X_1,X_2,\ldots,X_n\} \leq x ~~~~~\Leftrightarrow~~~~~ X_1\leq x \cap X_2\leq x\cap \ldots \cap X_n\leq x. \] Dermed må vi også ha at \[ P(X_{(n)}\leq x) = P(X_1\leq x \cap X_2\leq x\cap \ldots\cap X_n\leq x). \] Ved å benytte dette og at \(X_1,X_2,\ldots,X_n\) er uavhengige får vi \[ F_{X_{(n)}}(x) = P(X_{(n)}\leq x) = P(X_1\leq x \cap X_2\leq x\cap \ldots\cap X_n\leq x) = P(X_1\leq x)\cdot P(X_2\leq x)\cdot\ldots\cdot P(X_n\leq x). \] Siden kumulativ fordelingsfunksjon for alle \(X_i\)-ene er \(F_X(x)\) har vi \(P(X_i\leq x) = F_X(x)\) for alle \(i\) slik at vi får \[ F_{X_{(n)}}(x) = F_X(x)\cdot F_X(x)\cdot\ldots\cdot F_X(x) = \left(F_X(x)\right)^n \] som var det vi skulle bevise.
Bevis av formel for \(f_{X_{(n)}}(x)\): Dersom \(X_1,X_2,\ldots,X_n\) er kontinuerlige stokastiske variabler finner vi sannsynlighetstettheten til \(X_{(n)}\) ved å derivere \(F_{X_{(n)}}(x)\) med hensyn på \(x\). Vi kan derivere \(F_{X_{(n)}}(x)\) ved å bruke kjerneregelen, \[ f_{X_{(n)}}(x) = F_{X_{(n)}}^\prime(x) = n\left( F_X(x)\right)^{n-1} F_X^\prime(x) = n\left( F_X(x)\right)^{n-1} f_X(x) \] der vi i den siste overgangen benytter at for en kontinuerlig stokastisk variabel \(X\) er alltid \(F_X^\prime (x)=f_X(x)\). Dermed er også uttrykket gitt i teoremet for \(f_{X_{(n)}}(x)\) bevist.
Bevis av formel for \(F_{X_{(1)}}(x)\): Vi har åpenbart at den minste av \(X_1,X_2,\ldots,X_n\) er ekte større enn et tall \(x\) hvis og bare hvis alle \(X_1,X_2,\ldots,X_n\) er ekte større enn lik \(x\). Matematisk kan dette uttrykkes som \[ X_{(1)} = \min\{ X_1,X_2,\ldots,X_n\} > x ~~~~~\Leftrightarrow~~~~~ X_1 > x \cap X_2> x\cap \ldots \cap X_n> x. \] Dermed må vi også ha at \[ P(X_{(1)}> x) = P(X_1> x \cap X_2> x\cap \ldots\cap X_n> x). \] Ved å benytte dette, komplementærsetningen og at \(X_1,X_2,\ldots,X_n\) er uavhengige får vi \begin{eqnarray} F_{X_{(1)}}(x) &=& P(X_{(1)}\leq x) = 1-P(X_{(1)}>x) = 1-P(X_1> x \cap X_2> x\cap \ldots\cap X_n> x)\\ &=& 1-P(X_1>x)\cdot P(X_2>x)\cdot\ldots\cdot P(X_n>x)\\ &=& 1-(1-P(X_1\leq x))\cdot (1-P(X_2\leq x))\cdot \ldots\cdot (1-P(X_n\leq x)). \end{eqnarray} Siden kumulativ fordelingsfunksjon for alle \(X_i\)-ene er \(F_X(x)\) har vi tilsvarende som for \(X_{(n)}\) over at \(P(X_i\leq x) = F_X(x)\) for alle \(i\) slik at vi får \[ F_{X_{(1)}}(x) = 1 - \left(1-F_X(x)\right)\cdot \left(1-F_X(x)\right)\cdot \ldots \cdot \left(1-F_X(x)\right) = 1- \left(1-F_X(x)\right)^{n} \] som var det vi skulle bevise.
Bevis av formel for \(f_{X_{(1)}}(x)\): Dersom \(X_1,X_2,\ldots,X_n\) er kontinuerlige stokastiske variabler finner vi sannsynlighetstettheten til \(X_{(1)}\) ved å derivere \(F_{X_{(1)}}(x)\). Tilsvarende som for \(f_{X_{(n)}}(x)\) over kan vi derivere \(F_{X_{(1)}}(x)\) ved å bruke kjerneregelen,
\[
f_{X_{(1)}}(x) = F_{X_{(1)}}^\prime(x) = - n\left( 1-F_X(x)\right)^{n-1} \cdot \left(- F_X^\prime(x)\right) = n\left(1-F_X(x)\right)^{n-1}f_X(x)
\]
der vi i den siste overgangen igjen benytter at for en kontinuerlig stokastisk variabel \(X\) er alltid \(F_X^\prime (x)=f_X(x)\). Dermed er også uttrykket gitt i teoremet for \(f_{X_{(1)}}(x)\) bevist.
Eksempler: Ved å plotte \(f_X(x)\) sammen med tilhørende fordelinger for \(X_{(1)}\) og \(X_{(n)}\) kan man få en bedre forståelse av sammenhengen mellom disse fordelingene. Under er dette gjort for to valg av \(f_X(x)\). I de to første plottene har man antatt at \(X_i\)-ene er standard-normalfordelte. Plottet til venstre viser hvordan sannsynlighetsfordelingene blir når \(n=3\), og \(n=10\) er benyttet i plottet til høyre. Sannsynlighetstettheten \(f_X(x)\) er vist i svart, mens \(f_{X_{(1)}}(x)\) og \(f_{X_{(n)}}(x)\) er vist i henholdvis rødt og blått. Som man skulle forvente ser man at sannsynlighetsmassene i \(f_{X_{(1)}}(x)\) og \(f_{X_{(n)}}(x)\) er forskjøvet mot henholdsvis venstre og høyre i forhold til \(f_X(x)\), og at denne effekten er sterkest når \(n\) er stor.
De to neste plottene viser situasjonen når \(X_i\)-ene er eksponensialfordelt med \(\lambda=1\), og igjen er \(n=3\) benyttet i plottet til venstre og \(n=10\) i plottet til høyre. Sannsynlighetstetthetene \(f_X(x)\), \(f_{X_{(1)}}(x)\) og \(f_{X_{(n)}}(x)\) er igjen vist i henholdvis svart, rødt og blått. Også her ser vi hvordan sannsynlighetsmassene i \(f_{X_{(1)}}(x)\) og \(f_{X_{(n)}}(x)\) er forskjøvet mot henholdsvis venstre og høyre i forhold til \(f_X(x)\).
Generalisering: Det er ganske enkelt å generalisere utregningene som er brukt i beviset over til en situasjon hvor \(X_1,X_2,\ldots,X_n\) har forskjellige sannsynlighetsfordelinger. Så lenge \(X_1,X_2,\ldots,X_n\) er uavhengige kan man dermed finne fordelingen til ekstremvariablene også når \(X_i\)-ene har forskjellige sannsynlighetsfordelinger.
Ordningsvariabler
Ordningsvariabler
Definisjon: La \(X_1,X_2,\ldots,X_n\) være uavhengige stokastiske variabler, alle med samme sannsynlighetsfordeling. Den \(k\)-te minste av \(X_1,X_2,\ldots,X_n\) betegner vi da med \(X_{(k)}\), for \(k=1,2\ldots,n\). Vi kaller \(X_{(1)},X_{(2)},\ldots,X_{(n)}\) for ordningsvariabler.
Kommentar: Man vil alltid ha at \[ X_{(1)} \leq X_{(2)} \leq \ldots \leq X_{(n)}. \]
Spesialtilfeller: Ekstremvariablene \(X_{(1)}=\min\{ X_1,X_2,\ldots,X_n\}\) og \(X_{(n)} = \max\{ X_1,X_2,\ldots,X_n\}\) er også ordningsvariabler. Dersom \(n\) er odde er medianen \(\text{median}(X_1,X_2,\ldots,X_n) = X_{\left(\frac{n}{2}\right)}\). Dersom \(n\) er et like tall er medianen gjennomsnittet av to ordningsvariabler, \[ \text{median}(X_1,X_2,\ldots,X_n) = \frac{X_{\left(\frac{n}{2}\right)} + X_{\left(\frac{n}{2}+1\right)}}{2}. \]
Kommentar: Man kan merke seg at \(X_{(k)}\) er en funksjoner av de stokastiske variablene \(X_1,X_2,\ldots,X_n\) selv om det ikke er vanlig å benytte den vanlige funksjonsnotasjonen \(u(X_1,X_2,\ldots,X_n)\) i forbindelse med ordningsvariabler.
Illustrasjon: Anta at man har et system bestående av \(n\) komponenter, og at \(X_1,X_2,\ldots,X_n\) er levetiden til hver av disse \(n\) komponentene. Anta videre at systemet kun fungerer så lenge minst \(k\) av de \(n\) komponentene fungerer. Da blir \(X_{(k)}\) levetiden til systemet.
Teorem: La \(X_1,X_2,\ldots,X_n\) være uavhengige stokastiske variabler, alle med samme sannsynlighetsfordeling \(f_X(x)\) og kumulativ sannsynlighetsfordeling \(F_X(x)\). De kumulativ sannsynlighetsfordeling for \(X_{(k)}\) for \(k=1,2,\ldots,n\) er da \[ F_{X_{(k)}}(x) = \sum_{j=k}^n \binom{n}{j} \left( F_X(x)\right)^j \left(1-F_X(x)\right)^{n-j}. \] Dersom \(X_1,X_2,\ldots,X_n\) er kontinuerlige stokastiske variabler er sannsynlighetstettheten til \(X_{(k)}\) gitt som \[ f_{X_{(k)}}(x) = n\binom{n-1}{k-1} \left(F_X(x)\right)^{k-1} \left(1-F_X(x)\right)^{n-k} f_X(x). \]
Bevis
Bevis
Bevis av formel for \(F_{X_{(k)}}(x)\): Vi har åpenbart at \(X_{(k)}\) er mindre enn eller lik et tall \(x\) hvis og bare hvis minst \(k\) av \(X_1,X_2,\ldots,X_n\) er mindre enn eller lik \(x\). Dermed må vi ha at \[ P(X_{(k)}\leq x) = P(\text{minst}~k~\text{av}~X_1,X_2,\ldots,X_n~\text{er mindre enn eller lik}~x). \] Siden alle \(X_i\)-ene har samme sannsynlighetsfordeling er sannsynligheten \(P(X_i \leq x)=F_X(x)\) lik for alle \(i\). Og siden \(X_i\)-ene er uavhengige blir antall \(X_i\) som er mindre enn eller lik \(x\) binomisk fordelt med \(n\) forsøk og sannsynlighet for suksess lik \(p=F_X(x)\), dvs \[ P(\text{nøyaktig}~j~\text{av}~X_i\text{-ene er mindre enn eller lik}~x) = \binom{n}{j} \left(F_X(x)\right)^j \left(1-F_X(x)\right)^{n-j}. \] Dermed får vi at \begin{eqnarray} F_{X_{(k)}}(x) &=& P(\text{minst}~k~\text{av}~X_1,X_2,\ldots,X_n~\text{er mindre enn eller lik}~x)\\ &=& \sum_{j=k}^n P(\text{nøyaktig}~j~\text{av}~X_i\text{-ene er mindre enn eller lik}~x)\\ &=& \sum_{j=k}^n \binom{n}{j} \left(F_X(x)\right)^j \left(1-F_X(x)\right)^{n-j}, \end{eqnarray} som var det vi skulle bevise.
Bevis av formel for \(f_{X_{(k)}}(x)\): Dersom \(X_1,X_2,\ldots,X_n\) er kontinuerlige stokastiske variabler finner vi sannsynlighetstettheten til \(X_{(k)}\) ved å derivere \(F_{X_{(k)}}(x)\). Før vi starter med å derivere velger vi å trekke ut det siste leddet i summen for \(F_{X_{(k)}}(x)\),
\[
F_{X_{(k)}}(x) = \sum_{j=k}^{n-1} \binom{n}{j} \left(F_X(x)\right)^j \left(1-F_X(x)\right)^{n-j} + \left(F_X(x)\right)^n.
\]
Når vi deriverer summen ledd for ledd får vi da
\begin{eqnarray}
f_{X_{(k)}}(x) &=& F_{X_{(k)}}^\prime(x) = \sum_{j=k}^{n-1} \left[ \binom{n}{j} j \left(F_X(x)\right)^{j-1} f_X(x) \left(1-F_X(x)\right)^{n-j} + \binom{n}{j}\left(F_X(x)\right)^j (n-j) \left(1-F_X(x)\right)^{n-j-1}(-f_X(x))\right] + n\left(F_X(x)\right)^{n-1}f_X(x)\\
&=& f_X(x) \left[ \sum_{j=k}^{n-1} \left(j\binom{n}{j} \left(F_X(x)\right)^{j-1}\left(1-F_X(x)\right)^{n-j}\right) - \sum_{j=k}^{n-1} \left((n-j)\binom{n}{j} \left(F_X(x)\right)^j \left(1-F_X(x)\right)^{n-j-1}\right) + n\left(F_X(x)\right)^{n-1}\right].
\end{eqnarray}
Observerer så at koeffisienten i den første summen kan skrives
\[
j\binom{n}{j} = j\cdot \frac{n!}{j!(n-j)!} = \frac{n!}{(j-1)!(n-j)!}
\]
og koeffisienten i den andre summer kan skrives
\[
(n-j)\binom{n}{j} = (n-j)\cdot \frac{n!}{j!(n-j)!} = \frac{n!}{j!(n-j-1)!}.
\]
Ved å sette dette inn i uttrykket vi har for \(f_{X_{(k)}}\) og trekke ut det første leddet i den første summen får vi
\begin{eqnarray}
f_{X_{(k)}}(x) &=& f_X(x)\left[ \frac{n!}{(k-1)!(n-k)!} \left(F_X(x)\right)^{k-1}\left(1-F_X(x)\right)^{n-k} + \sum_{j=k+1}^{n-1} \left(\frac{n!}{(j-1)!(n-j)!} \left(F_X(x)\right)^{j-1}\left(1-F_X(x)\right)^{n-j}\right)\right.\\
&-& \left. \sum_{j=k}^{n-1} \left(\frac{n!}{j!(n-j-1)!} \left(F_X(x)\right)^j \left(1-F_X(x)\right)^{n-j-1}\right) + n\left(F_X(x)\right)^{n-1}\right].
\end{eqnarray}
Endrer så summevariabelen i den første summen slik at vi får en sum fra \(j=k\) til \(n-2\) i stedet for fra \(j=k+1\) til \(n-1\),
\begin{eqnarray}
f_{X_k}(x) &=& f_X(x)\left[ \frac{n!}{(k-1)!(n-k)!} \left(F_X(x)\right)^{k-1}\left(1-F_X(x)\right)^{n-k} + \sum_{j=k}^{n-2} \left(\frac{n!}{j!(n-j-1)!} \left(F_X(x)\right)^j\left(1-F_X(x)\right)^{n-j-1}\right)\right.\\
&-& \left. \sum_{j=k}^{n-1} \left(\frac{n!}{j!(n-j-1)!} \left(F_X(x)\right)^j \left(1-F_X(x)\right)^{n-j-1}\right) + n\left(F_X(x)\right)^{n-1}\right].
\end{eqnarray}
Ser at de to summene nå summerer over samme uttrykk, men at den siste summen har et ledd mer enn den første. Dermed får vi
\[
f_{X_{(k)}}(x) = f_X(x)\left[ \frac{n!}{(k-1)!(n-k)!} \left(F_X(x)\right)^{k-1}\left(1-F_X(x)\right)^{n-k} - \frac{n!}{(n-1)!0!} \left(F_X(x)\right)^{n-1} \left(1-F_X(x)\right)^0 + n\left(F_X(x)\right)^{n-1}\right].
\]
De to siste leddene kansellerer mot hverandre og siden
\[
\frac{n!}{(k-1)!(n-k)!} = n\binom{n-1}{k-1}
\]
får vi
\[
f_{X_{(k)}}(x) = n\binom{n-1}{k-1} \left(F_X(x)\right)^{k-1}\left(1-F_X(x)\right)^{n-k} f_X(x),
\]
som er uttrykket for \(f_{X_{(k)}}(x)\) gitt i teoremet.
Eksempel: Ved å plotte \(f_X(x)\) sammen med tilhørende fordeling for \(X_{(k)}\) for ulike verdier av \(k\) kan man få en bedre forståelse av sammenhengen mellom disse fordelingene. I figuren under er dette gjort for \(n=5\) når \(X_i\)-ene er eksponensialfordelte med \(\lambda=1\). Sannsynlighetstettheten \(f_X(x)\) er vist i svart, mens \(f_{X_{(k)}}(x)\) for \(k=1,2,3,4,5\) er vist i rødt.