Temaside for TMA4240/TMA4245 Statistikk

Begreper, definisjoner og tolkninger

Stokastiske variabler og sannsynlighetsfordelinger

En stokastisk variabel er formelt sett en funksjon fra et utfallsrom \(S\) til tallinja. Vi kan også tenke på en stokastisk variabel som en variabel som får en tallverdi når vi gjør et stokastisk forsøk. Hvilken verdi den stokastiske variabelen får er underlagt tilfeldigheter. Vi kan derfor beskrive egenskapene til den stokastisk variabelen ved å angi med hvilke sannsynligheter den stokastiske variabelen tar ulike verdier. Dette kalles sannsynlighetsfordelingen til den stokastiske variabelen.

Introduksjonsvideo: Stokastiske variabler og sannsynlighetsfordelinger (30:24, Håkon Tjelmeland)

Sentrale begreper

Trykk på det grå feltet for mer informasjon om temaet.

Stokastisk variabel

Stokastisk variabel

Definisjon: En stokastisk variabel er en funksjon fra et utfallsrom til den reelle tallinja.

Notasjon: En stokastisk variabel betegnes gjerne med en stor bokstav i slutten av det engelske alfabetet, og de mest brukte bokstavene er \(X,Y,Z,U\) og \(V\). For en stokastisk variabel \(X\) som er definert fra et stokastisk forsøk med utfallsrom \(S\) kan man dermed skrive \[ X(e)\in \mathbb{R} \text{ for } e\in S \] eller \[ X: S\rightarrow \mathbb{R}. \] En stokastisk variabel \(X\) kan også illustreres med følgende figur.



Kommentar: Når man skal beskrive egenskapene til en stokastisk variabel skiller man mellom to situasjoner. Hvis en stokastisk variabel kun kan ta diskrete verdier på tallinja sier vi at vi har en diskret stokastisk variabel. Hvis en stokastisk variabel kan ta alle verdier i et intervall på tallinja eller alle verdier på hele tallinja sier vi at vi har en kontinuerlig stokastisk variabel.

Relevante kapitler: 3.1
Relevante videoer:
Relevante oppgaver:


Punktsannsynlighet

Punktsannsynlighet

En stokastisk variabel som kun kan ta diskrete verdier på tallinja kalles en diskret stokastisk variabel. Punktsannsynligheten \(f(x)\) for en diskret stokastisk variabel \(X\) er gitt som \[ f(x) = P(X=x). \]

Notasjon: I uttrykket over betegner stor \(X\) en stokastisk variabel, mens liten \(x\) angir en mulig verdi for den stokastiske variabelen. Liten \(x\) er altså en vanlig matematisk variabel slik man er vant med fra matematikk.

Notasjon: Det benyttes ulike notasjoner for punktsannsynligheten for en diskret stokastisk variabel \(X\). De to mest vanlige er \(f(x)=P(X=x)\), som benyttes på denne siden, og \(f_X(x)=P(X=x)\). I notasjonen \(f_X(x)\) minner indeksen \(X\) oss på at dette er punktsannsynligheten for den stokastiske variabelen \(X\). I situasjoner hvor vi har flere stokastiske variabler kan det være nyttig å bruke en slik notasjon for å holde punktsannsynlighetene for de ulike stokastiske variablene fra hverandre.

Kommentar: Merk at \(P(X=x)\) er en kort skrivemåte for sannsynligheten for den hendelsen som består av alle enkeltutfall \(e\) i utfallsrommet \( S\) som gir \(X(e)=x\). Matematisk kan dette skrives som \[ P(X=x) = P(\{ e\in S\ |\ X(e)=x\}). \]

Egenskaper: En punktsannsynlighet \(f(x)\) for en diskret stokastisk variabel \(X\) vil alltid ha følgende egenskaper:

  1. \( f(x) \geq 0\).
  2. \(\sum_x f(x) = 1\).
  3. \(f(x) = P(X=x)\).

Kommentar: Alle hendelser som kan spesifiseres ved den diskrete stokastiske variabelen \(X\) kan beregnes fra punktsannsynligheten \( f(x)\). Vi har for eksempel at \[ P(X \leq x) = \sum_{z\leq x} f(z) \] der summen er over alle verdier som \( X\) kan ta som er mindre enn eller lik tallet \(x\).

Visualisering: For å visualisere en punktsannsynlighet er det vanlig å benytte et stolpediagram eller et sannsynlighetshistogram. Under vises dette for en stokastiske variabel \(X\) med punktsannsynlighet gitt ved \[ f(x) = {{10}\choose{x}} 0.25^x (1-0.25)^{10-x}, x=0,1,2,\ldots,10. \]

Relevante kapitler: 3.2
Relevante videoer:
\(\ \ \ \)Eksamen august 2014, oppgave 2 (13:26, Mette Langaas).
Relevante oppgaver:
\(\ \ \ \)Eksamen desember 2014, oppgave 2 (b,n,e).


Sannsynlighetstetthet

Sannsynlighetstetthet

En stokastisk variabel som kan ta alle verdier i et intervall på tallinja eller alle verdier på hele tallinja sies å være en kontinuerlig stokastisk variabel. Sannsynlighetstettheten \(f(x)\) for en kontinuerlig stokastisk variabel \(X\) er gitt ved at \[ P(a < X \leq b) = \int_a^b f(x)\mbox{d}x \] for alle \(a < b\).

Notasjon: Merk at samme notasjon \(f(x)\) benyttes om punktsannsynligheten for en diskret stokastisk variabel som for sannsynlighetstettheten for en kontinuerlig stokastisk variabel. En fordel med å benytte samme notasjon for disse to størrelsene er at mange regneregler for punktsannsynlighet og sannsynlighetstettheter da vil se like ut.

Notasjon: Det benyttes ulike notasjoner for sannsynlighetstettheten for en kontinuerlig stokastisk variabel \(X\). De to mest vanlige er \(f(x)\), som benyttes på denne siden, og \(f_X(x)\). I notasjonen \(f_X(x)\) minner indeksen \(X\) oss på at dette er sannsynlighetstettheten for den stokastiske variabelen \(X\). I situasjoner hvor vi har flere stokastiske variabler kan det være nyttig å bruke en slik notasjon for å holde sannsynlighetstetthetene for de ulike stokastiske variablene fra hverandre.

Egenskaper: En sannsynlighetstetthet \(f(x)\) for en kontinuerlig stokastisk variabel \(X\) vil alltid ha følgende egenskaper:

  1. \(f(x)\geq 0\).
  2. \( \int_{-\infty}^\infty f(x)\mbox{d}x = 1\).
  3. \(P(a < X\leq b) = \int_a^b f(x)\mbox{d}x\).

Kommentar: En sannsynlighetstetthet \(f(x)\) er ikke en sannsynlighet. Følgelig er det ikke noe krav om at \(f(x)\) skal være mindre eller lik en.

Kommentar: Alle hendelser som kan spesifiseres ved den kontinuerlige stokastiske variabelen \(X\) kan beregnes fra sannsynlighetstettheten \(f(x)\). Vi har for eksempel at \[ P(X \leq x) = \int_{-\infty}^x f(x)\mbox{d}x. \]

Kommentar: For en kontinuerlig stokastisk variabel \(X\) vil sannsynligheten for at \(X\) tar en bestemt verdi \(x\) alltid være lik null, \[ P(X=x) = 0. \] Dette betyr spesielt at man for en kontinuerlig stokastisk variabel \(X\) alltid vil ha at \[ P(a<X\leq b) = P(a<X<b) = P(a\leq X< b) = P(a\leq X\leq b). \]

Visualisering: For å visualisere en sannsynlighetstetthet er det vanlig å plotte \(f(x)\) som en vanlig matematisk funksjon. Under vises dette for en stokastisk variabel \(X\) med sannsynlighetstetthet gitt ved \[ f(x) = \frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}(x-2)^2}, -\infty<x<\infty. \]

En sannsynlighet \(P(a<X\leq b)\) er lik arealet av området avgrenset av \(x\)-aksen, kurven \( f(x)\) og de to vertikale linjene \(x=a\) og \(x=b\). For samme sannsynlighetstetthet som i figuren over, er dette illustrert i de to figurene under. I figuren til venstre er arealet av området som er farget grønt lik \(P(1<X\leq 2)\), mens i figuren til høyre er arealet av området som er farget grønt lik \(P(1<X\leq 3.5)\).

Relevante kapitler: 3.3
Relevante videoer:
Relevante oppgaver:
\(\ \ \ \)Eksamen desember 2015, oppgave 1a (b,n,e).
\(\ \ \ \)Eksamen desember 2011, oppgave 2a (b,n,e).
\(\ \ \ \)Eksamen juni 2010, oppgave 2a (b,n,e).


Kumulativ fordeling

Kumulativ fordeling

Kumulativ fordeling \(F(x)\) for en (diskret eller kontinuerlig) stokastisk variabel \(X\) er gitt ved \[ F(x) = P(X\leq x). \]

Notasjon: Det benyttes ulike notasjoner for kumulativ fordeling for en stokastisk variabel \(X\). De to mest vanlige er \(F(x)=P(X\leq x)\), som benyttes på denne siden, og \(F_X(x)=P(X\leq x)\). I notasjonen \(F_X(x)\) minner indeksen \(X\) oss på at dette er kumulativ fordeling for den stokastiske variabelen \(X\). I situasjoner hvor vi har flere stokastiske variabler kan det være nyttig å bruke en slik notasjon for å holde kumulativ fordeling for de ulike stokastiske variablene fra hverandre.

Kommentar: \(F(x)\) er en sannsynlighet og dermed må vi alltid ha at \(0\leq F(x)\leq 1\). Dessuten vil en kumulativ fordeling \(F(x)\) alltid være en voksende funksjon av \(x\).

Visualisering: For å visualisere en kumulativ fordeling er det vanlig å plotte \(F(x)\) som en vanlig matematisk funksjon. Under til venstre vises et eksempel på en kumulativ fordeling \(F(x)\) for en diskret stokastisk variabel \(X\), og til høyre vises et eksempel på en kumulativ fordeling \(F(x)\) for en kontinuerlig stokastisk variabel.

Som vi ser på figuren til venstre over er \(F(x)\) for en diskret stokastisk variabel \(X\) en trappefunksjon. Den har et trappetrinn i hver mulig verdi for \(X\) og høyden på trappetrinnet i en posisjon \(x\) er lik \(f(x)\). Som vi ser på figuren til høyre er \(F(x)\) for en kontinuerlig stokastisk variabel \(X\) er kontinuerlig funksjon. For både diskrete og kontinuerlige stokastiske variabler har vi at \(F(x)\) er en voksende funksjon og at \[ \lim_{x\rightarrow-\infty}F(x) = 0 \ \ \ \ \ \ \ \text{og} \ \ \ \ \ \ \ \lim_{x\rightarrow\infty}F(x) = 1. \]

Kommentar: For en diskret stokastisk variabel \(X\) er det en en-til-en sammenheng mellom kumulativ fordeling \(F(x)\) og punktsannsynlighet \(f(x)\). Hvis de mulige verdier for \(X\) er \(0,1,2,\ldots\) har vi at \[ F(x) = \sum_{t=0}^x f(t) \ \ \ \ \ \ \ \ \text{og} \ \ \ \ \ \ \ \ f(x) = F(x) - F(x-1). \] For en kontinuerlig stokastisk variabel \(X\) er det tilsvarende en en-til-en sammanheng mellom kumulativ fordeling \(F(x)\) og sannsynlighetstetthet \(f(x)\), og denne er gitt ved at \[ F(x) = \int_{-\infty}^x f(t)\mbox{d}t \ \ \ \ \ \ \ \ \text{og} \ \ \ \ \ \ \ \ f(x) = F^\prime (x). \]

Relevante kapitler: 3.2, 3.3
Relevante videoer:
Relevante oppgaver:
\(\ \ \ \)Eksamen desember 2015, oppgave 1a (b,n,e).
\(\ \ \ \)Eksamen desember 2011, oppgave 2a (b,n,e).
\(\ \ \ \)Eksamen juni 2010, oppgave 2a (b,n,e).


Simultan sannsynlighetsfordeling

Simultan sannsynlighetsfordeling

Hvis vi har to eller flere stokastiske variabler trenger vi deres simultane (eller samtidige) sannsynsynlighetsfordeling for å beskrive deres egenskaper. Hvis vi har to diskrete stokastiske variabler \(X\) og \(Y\) er deres simultane sannsynlighetsfordeling \(f(x,y)\), som også kalles simultan punktsannsynlighet, gitt som \[ f(x,y) = P(X=x,Y=y), \] der kommaet i \(P(X=x,Y=y)\) skal leses som 'og' eller snitt. Hvis vi har to kontinuerlige stokastiske variabler \(X\) og \(Y\) er deres simultane sannsynlighetsfordeling \(f(x,y)\), som også kalles simultan sannsynlighetstetthet, gitt ved at \[ P((X,Y)\in A) = \iint\limits_A f(x,y)\mbox{d}x\mbox{d}y \ \ \text{for \(A\subseteq \mathbb{R}^2\)}. \]

Notasjon: Man kan eventuelt angi hvilke stokastiske variabler en simultan sannsynlighetsfordeling gjelder for ved å angi dette som en indeks til \(f\)-en, tilsvarende som man kan når man har bare en stokastisk variabel. Simultan sannsynlighetsfordeling for \(X\) og \(Y\) kan man altså alternativt betegne med \(f_{XY}(x,y)\).

Egenskaper: En simultan sannsynlighetsfordeling for en diskret stokastisk variabel \(X\) vil alltid ha følgende egenskaper:

  1. \(f(x,y) \geq 0\).
  2. \(\sum_x\sum_y f(x,y) = 1\).
  3. \(f(x,y) = P(X=x,Y=y)\).

En simultan sannsynlighetsfordeling for en kontinuerlig stokastisk variabel vil tilsvarende alltid ha følgende egenskaper:

  1. \(f(x,y) \geq 0\).
  2. \(\int_{-\infty}^\infty\int_{-\infty}^\infty f(x,y)\mbox{d}x\mbox{d}y = 1\).
  3. \(P((X,Y)\in A) = \iint\limits_A f(x,y)\mbox{d}x\mbox{d}y\) for \(A\subseteq \mathbb{R}^2\).

Marginalfordeling: Fra simultanfordelingen for to stokastiske variabler \(X\) og \(Y\) kan man finne fordelingen for \(X\) og \(Y\) hver for seg. Fordelingene for \(X\) og \(Y\) hver for seg kalles gjerne for marginalfordelinger, for å understreke at det er fordelinger hvor man ser på bare en stokastisk variabel. Hvis vi lar \(f_{XY}(x,y)\) være simultanfordelingen for \(X\) og \(Y\) og betegner marginalfordelingene for \(X\) og \(Y\) med henholdsvis \(f_X(x)\) og \(f_Y(y)\) har vi at \[ f_X(x) = \sum_y f_{XY}(x,y) \ \ \ \ \ \ \text{og}\ \ \ \ \ \ f_Y(y) = \sum_x f_{XY}(x,y) \] hvis \(X\) og \(Y\) er diskrete stokastiske variabler, og \[ f_X(x) = \int_{-\infty}^\infty f_{XY}(x,y)\mbox{d}y \ \ \ \ \ \ \text{og}\ \ \ \ \ \ f_Y(y) = \int_{-\infty}^\infty f_{XY}(x,y)\mbox{d}x \] hvis \(X\) og \(Y\) er kontinuerlige stokastiske variabler.

Relevante kapitler: 3.4
Relevante videoer:
\(\ \ \ \)Eksamen august 2014, oppgave 2 (13:26, Mette Langaas).
Relevante oppgaver:
\(\ \ \ \)Eksamen august 2014, oppgave 2a (b,n).
\(\ \ \ \)Eksamen desember 2014, oppgave 2 (b,n,e).
\(\ \ \ \)Eksamen desember 2014, oppgave 1b (b,n,e).


Betinget fordeling

Betinget fordeling

Definisjon: La \(X\) og \(Y\) være to stokastiske variabler med simultan sannsynlighetsfordeling \(f_{XY}(x,y)\). Anta at \(X\) og \(Y\) enten begge er diskrete stokastiske variabler, eller at begge er kontinuerlige stokastiske variabler. Den betingede fordelingen for \(Y\) gitt \(X=x\) er da \[ f_{Y|X}(y\ |\ x) = \frac{f_{XY}(x,y)}{f_X(x)}\ \ \text{hvis \(f_X(x)>0\)} \] og den betingede fordelingen for \(X\) gitt \(Y=y\) er tilsvarende \[ f_{X|Y}(x\ |\ y) = \frac{f_{XY}(x,y)}{f_Y(y)}\ \ \text{hvis \(f_Y(y)>0\).} \] Her betegner \(f_X(x)\) og \(f_Y(y)\) marginalfordelingene for henholdsvis \(X\) og \(Y\).

Kommentar: Definisjonen over gjelder for både diskrete og kontinuerlige stokastiske variabler. Hvis \(X\) og \(Y\) er diskrete stokastiske variabler er fordelingene som inngår i formlene over punktsannsynligheter, mens hvis \(X\) og \(Y\) er kontinuerlige stokastiske variabler er fordelingene sannsynlighetstettheter.

Kommentar: Merk at \(f_{Y|X}(y\ |\ x)\) og \(f_{X|Y}(x\ |\ y)\) er sannsynlighetsfordelinger (punktsannsynligheter eller sannsynlighetstettheter) og at de dermed vil oppfylle de egenskaper som alle punktsannsynligheter og sannsynlighetstettheter har.

Tolkning: Den betingede fordelingen \(f_{Y|X}(y\ |\ x)\) angir sannsynlighetsfordelingen for \(Y\) hvis man får opplyst om at \(X=x\). Hvis \(X\) og \(Y\) er kontinuerlige stokastiske variabler betyr dette for eksempel at \[ P(a<Y\leq b|X=x) = \int_a^b f_{Y|X}(y\ |\ x)\mbox{d}y. \]

Relevante kapitler: 3.4
Relevante videoer:
\(\ \ \ \)Betinget og marginal fordeling (9:59, Haakon Bakka)
\(\ \ \ \)Eksamen desember 2012, oppgave 2b (07:48, Mette Langaas)
Relevante oppgaver:
\(\ \ \ \)Eksamen desember 2009, oppgave 1b (b,n,e).


Uavhengige stokastiske variabler

Uavhengige stokastiske variabler

Definisjon: To stokastiske variabler \(X\) og \(Y\) med simultan sannsynlighetsfordeling \(f_{XY}(x,y)\) og marginalfordelinger for \(X\) og \(Y\) henholdsvis lik \(f_X(x)\) og \(f_Y(y)\) er uavhengige hvis og bare hvis \[ f_{XY}(x,y) = f_X(x) \cdot f_Y(y) \ \ \ \mbox{for alle \(x\) og \(y\)}. \]

Kommentar: Definisjonen over gjelder for både diskrete og kontinuerlige stokastiske variabler. Hvis \(X\) og \(Y\) er diskrete stokastiske variabler angir fordelingene over punktsannsynligheter, mens hvis \(X\) og \(Y\) er kontinuerlige stokastiske variabler angir de sannsynlighetstettheter.

Tolkning: Man kan vise at hvis \(X\) og \(Y\) er uavhengige så vil det at man får opplyst om verdien til den ene av de to stokastiske variablene ikke endre sannsynlighetsfordelingen til, og dermed vår kunnskap om, den andre stokastiske variabelen. Matematisk kan dette formuleres som følger. Hvis \(X\) og \(Y\) er uavhengige så kan man vise at \[ f_{Y|X}(y\ |\ x)=f_Y(y) \ \ \ \mbox{for alle \(x\) og \(y\) der \(f_X(x)>0\).} \] Hvis \(X\) og \(Y\) er uavhengige vil følgelig det at man får opplyst om verdien til \(X\) ikke endre sannsynlighetsfordelingen til \(Y\). Tilsvarende kan man vise at hvis \(X\) og \(Y\) er uavhengige så vil \[ f_{X|Y}(x\ |\ y)=f_X(x) \ \ \ \mbox{for alle \(x\) og \(y\) der \(f_Y(y)>0\).} \] Hvis \(X\) og \(Y\) er uavhengige vil følgelig det at man får opplyst om verdien til \(Y\) ikke endre sannsynlighetsfordelingen til \(X\).

Generalisering: Hvis man har \(n\) stokastiske variabler \(X_1,X_2,\ldots,X_n\) som er uavhengige og (marginal)fordelingen til \(X_i\) er \(f_{X_i}(x_i)\) for \(i=1,2,\ldots,n\) så vil simultan sannsynlighetsfordeling for \(X_1,X_2,\ldots,X_n\) være \[ f_{X_1,X_2,\ldots,X_n}(x_1,x_2,\ldots,x_n) = f_{X_1}(x_1)\cdot f_{X_2}(x_2)\cdot\ldots\cdot f_{X_n}(x_n) = \prod_{i=1}^n f_{X_i}(x_i). \]

Relevante kapitler: 3.4
Relevante videoer:
\(\ \ \ \)Eksamen august 2014, oppgave 2 (13:26, Mette Langaas).
Relevante oppgaver:
\(\ \ \ \)Eksamen desember 2014, oppgave 2 (b,n,e).


2017-07-24, Håkon Tjelmeland