Innholdsfortegnelse

Nyttige begreper


Ansvarlige for innholdet: Henning Omre og Mina Spremic, 10.05.2021.

Hvis du har spørsmål om innholdet, har tips til forbedring eller ønsker tips til flere ressurser, send en e-post til en av oss, henning.omre(at)ntnu.no eller mina.spremic(at)ntnu.no.

Denne begreps-listen med sannsynligheter og statistikk kan virke noe overveldende for elever på ungdoms- og videregående-skoler. Ungdomskole-elever med interesse og evner for matematiske fag bør gyve løs - men selv da er det slett ikke sikkert en kommer helt gjennom med god forståelse. Elever på videregående-skoler som liker matematiske fag bør kunne arbeide seg gjennom listen med grei forståelse. Men det vil nok kreve studier i noen iterasjoner.

Begrepene i sannsynlighet og statistikk listet og forklart under gir innblikk i innholdet i universitets-studier i Statistikk.


For å kunne navigere i feltet sannsynlighet og statistikk er det nyttig å forstå noen begreper.

Først bør en beskrive en sannsynlighets-modell:

Sannsynlighets-modell kan defineres for et forsøk som har en tilfeldig komponent og derfor kan resultere i, ett og bare ett, av ulike utfall. Hvert utfall er tilegnet ett tall mellom null og en, som beskriver sannsynligheten for at forsøket resulterer i akkurat dette utfallet. Summen av sannsynlighetene må være en.

Deretter bør en skille på sannsynlighetsregning og statistisk analyse:

Sannsynlighetsregning er en matematisk disiplin. Baset på forsøket med kjente sannsynligheter, beregn sannsynligheten for resultater fra ett eller fler gjentakelser av forsøket.

Statistisk analyse er en særegen disiplin. Basert på forsøket med ukjente sannsynligheter, bruk resultatene av gjentatte forsøk til å beregne de aktuelle sannsynlighetene.

Sannsynlighet

Tilfeldig (Stokastisk) Variabel


Betrakt et tilfeldig forsøk, hvor en registrer en tallverdi \(X\). Den tilfeldige variabelen \(X\) kan enten ta diskrete eller kontinuerlige utfalls-verdier på tall-linjen.

Dersom en registrer flere tallverdier \([X_1, X_2,…, X_k]\) fra et tilfeldig forsøk, benevnes den tilfeldige variablen multi-variat (k-variat).

Sannsynlighetsfordeling


Sannsynlighets-egenskapene til det tilfeldige forsøket representert ved den tilfeldige variablen \(X\) kan spesifiseres med en sannsynlighets-funksjon \(P_X(x) = Prob{(X \leq x)}\). Funksjonen \(P_X(x)\) leses som sannsynligheten (probability) for at det tilfeldige forsøket resulterer i en utfalls-verdi mindre enn \(x\).

Merk at sannsynligheten for utfall mindre enn \(-∞\) er lik 0 og at utfall mindre enn \(∞\) er 1. Ordningen av tall-linjen medfører også at for verdiene \(x’ \leq x’’\) har en \(P_X(x’) \leq P_X(x’’)\), og at sannsynlighets-funksjonen \(P_X(x)\) må være en monotont ikke-avtakende funksjon. Det er altså en ikke-negativ sannsynlighet \(P_X(x’’) – P_X(x’)\) for at utfalls-verdien faller i intervallet \([x’,x’’]\).

Sannsynlighets-egenskapene for multi-variate tilfeldige forsøk kan spesifiseres på tilsvarende måter med sannsynlighets-funksjonen \(P_{X_1,..,X_k}(x_1,…,x_k)\). I det bi-variate tilfellet må sannsynlighets-funksjonen \(P_{X_1,X_2}(x_1,x_2)\) være monotont ikke-avtakende med økende \((x_1,x_2)\). Dersom de tilfeldige variablene, \([X_1,X_2]\), er uavhengige har en \(P_{X_1,X_2}(x_1 , x_2 ) = P_{X_1}(x_1) P_{X_2}( x_2)\).

Sannsynlighets-tettheten \(p_X(x)\) defineres som sannsynligheten for at utfalls-verdien \(X\) faller i intervallet \([ \frac{x-Δx}{2}, \frac{x+Δx}{2}]\), dividert med \(Δx\), når \(Δx\) går mot null.

Sannsynlighets-egenskapene for multi-variate tilfeldige forsøk kan spesifiseres på tilsvarende måter med sannsynlighets-tetthet \(p_{X_1,..,X_k} (x_1,…,x_k)\). I det bi-variate tilfellet må sannsynlighets-tettheten \(p_{X_1,X_2}(x_1,x_2)\) være ikke-negative for alle \((x_1,x_2)\). Dersom de tilfeldige variablene er uavhengige har en \(p_{X_1,X_2}(x_1 , x_2 ) = p_{X_1} (x_1)p_{X_2}( x_2)\).

Simulering


Simulering av utfalls-verdien fra et tilfeldig forsøk med sannsynlighets-funksjon \(P_X(x)\) kan brukes til å gjenskape forsøk på datamaskin uten å utføre selve det fysiske forsøket. Det er mulig fordi sannsynlighets-funksjonen spesifiserer alle sannsynlighetsegenskapene til forsøket. Simuleringen kan utføres som følger:

- trekk ett tilfeldig kontinuerlig tall \(u^s\) i intervallet \([0,1]\) ved hjelp av en tilfeldig-tall-generator på datamaskinen.

- gå baklengs gjennom sannsynlighets-funksjonen ved verdi \(u^s\) og observer \(x^s\), dvs \(x^s = P_{X}^{-1}(u^s)\). Da vil \(x^s\) være en simulert utfalls-verdi fra det tilfeldige forsøket.

Tilsvarende simuleringer kan utføres for multi-variate tilfeldige forsøk.

Betinget sannsynlighet og Bayes Regel


Betinget sannsynlighet tallfester samspillet mellom variablene i en tilfeldig bi-variat variabel \([X_1,X_2]\). Den betingete sannsynlighetsfordelingen for en tilfeldig variabel \(X_1\) gitt utfalls-verdien på \(X_2\) benevnes \(P_{X_1|X_2} ( x_1 | x_2 ) = P_{X_1 X_2} (x_1 , x_2 ) / p_{X_2} ( x_2)\). Hvis de tilfeldige variablene er uavhengige vil denne fordelingen være lik \(P_{X_1} (x_1)\), altså uavhengig av utfalls-verdien av \(X_2\). Den betingete sannsynlighetsfordelingen er ikke symmetrisk i \(X_1\) og \(X_2\), og asymmetrien defineres av Bayes regel \(P_{X_1|X_2} (x_1 | x_2) = P_{X_2 | X_1} (x_2 | x_1 ) p_{X_1} (x_1) / p_{X_2} ( x_2 )\).

Forventning og Varians


Forventning (expectation) \(E\{X\}\) og varians (variance) \(Var\{X\}\) tallfester lokasjon og spredning på utfalls-verdiene i et tilfeldig forsøk. Forventet verdi er et sannsynlighets-veid gjennomsnitt av alle mulige utfalls-verdier. Varians verdi er et sannsynlighets-veid gjennomsnitt av kvadratisk avvik mellom utfalls-verdi og forventet verdi. Standard avviks verdi (standard deviation) \(Sd\{X\}\) er definert som kvadratroten av varians verdi, og forventet verdi og standard avviks verdi har samme enhet og er derfor sammenlignbare.

Korrelasjon og Kausalitet


Korrelasjon (correlation) \(Corr\{X_1,X_2\}\) og kausalitet (causiality) \(Cau\{X_1|X_2\}\) tallfester samvariasjonen og følge-avhengighet i tilfeldige bi-variate variable \([X_1,X_2]\). Korrelasjon er et normert mål på symmetrisk samvariasjon slik at \( -1 \leq Corr\{X_1,X_2\} = Corr\{X_2,X_1\} \leq 1\) og dette målet er nært knyttet til den bi-variate sannsynlighetsfordelingen.

Kausalitet er et asymmetrisk avhengighets-mål slik at \(Cau\{X_1|X_2\} \neq Cau\{X_2|X_1\}\) og dette målet er nært knyttet til de betingete sannsynlighetsfordelingene mellom variablene. Samspillet mellom de tilfeldig bi-variate variablene kan presenteres i en graf, hvor korrelasjon og kausalitet representeres med henholdsvis tosidige og ensidige piler, se Figur nedenfor.

Statistikk

Prøvetaking


Et tilfeldig utvalg på størrelse \(n\) av en tilfeldig variabel \(X\) fra et tilfeldig forsøk med sannsynlighets-funksjon \(P_X(x)\) genereres ved å gjenta forsøket n ganger, uavhengig av hverandre, og registrere utfall-verdiene, \(x_1, x_2, … ,x_n\).

Et tilfeldig utvalg fra et tilfeldige forsøk som resulterer i tilfeldige multi-variate variable kan genereres på tilsvarende måte.

Data-analyse


Data analysen utføres uten noen sannsynlighets-antakelser på et tilfeldig utvalg \(x_1, x_2, … ,x_n\), og det består i å synligjøre egenskaper ved den underliggende ukjente sannsynlighetsfordelingen. En kan anslå forventet verdi og varians verdi ved å regne ut gjennomsnitt av utvalget og gjennomsnitt av kvadratisk avvik mellom utvalget og beregnet forventet verdi.

Videre kan en synliggjøre sannsynlighets-funksjonen og sannsynlighets-tettheten ved å presentere henholdsvis et akkumulasjons-plott eller et histogram.

Et akkumulasjons-plott viser andelen i det tilfeldige utvalget som er mindre enn en spesifisert verdi \(x\), og dette plottet er åpenbart relatert til sannsynlighets-funksjonen for det tilfeldige forsøket. Et histogram er basert på en oppdeling av tall-linjen i linjestykker, og plotting av andelen i det tilfeldige utvalget som faller innenfor hvert linje-stykke, og dette plottet er åpenbart relatert til sannsynlighets-tettheten for det tilfeldige forsøket.

For tilfeldige utvalg fra multi-variate tilfeldige forsøk kan en beregne forventet verdi og varians verdi for hver av variablene samt presentere bi-plott for å synliggjøre de bi-variate sannsynlighets-tetthetene. Kreative diagrammer og plott av det tilfeldige utvalget \(x_1, x_2, …, x_n\) kan ofte gi uvurderlig innsikt i sannsynlighets-egenskapene til den underliggende tilfeldige variablen fra det tilfeldige forsøket.

Estimering


Basert på akkumulasjons-plott og histogrammer av det tilfeldige utvalget \(x_1, x_2, .. ,x_n\) kan en tilpasse sannsynlighets-funksjonen og sannsynlighets-tettheten til den underliggende tilfeldige variabelen, henholdsvis \(P_X(x)\) og \(p_X(x)\). Denne tilpassingen benevnes estimering av henholdsvis sannsynlighets-funksjonen og sannsynlighets-tettheten, og estimatene benevnes \(\hat{P}_X(x)\) og \(\hat{p}_X(x)\).

Forventningen og variansen til den tilfeldige variablen, henholdsvis \(E\{X\}\) og \(Var\{X\}\), kan estimeres som gjennomsnitt av det tilfeldige utvalget og gjennomsnitt av kvadratavviket av det tilfeldige utvalget minus estimert forventning. Estimatene benevnes \(\hat{E}\{X\}\) og \(\hat{Var}\{X\}\).

Sannsynlighets-funksjonen antas ofte å komme fra en klasse av funksjoner, \(P_X(x; \theta)\) som er definert av en parameter \(\theta\). Basert på et tilfeldig utvalg fra denne tilfeldige variablen, \(x_1, x_2, … ,x_n\), ønsker en ofte å tilpasse den beste funksjonen fra denne klassen. Dette gjøres ved å estimere de aktuelle klasse-parameter verdiene , \(\theta\) ,basert på det tilfeldige utvalget, og estimatene benevnes \(\hat{\theta}\).

Estimering av sannsynlighetsfordelingen, eller andre egenskaper som forventning og varians, av et tilfeldig forsøk, basert på et tilfeldig utvalg av størrelse \(n\), vil selvsagt være beheftet med usikkerhet. Hvis vi gjentok de tilfeldige forsøkene i det tilfeldige utvalget ville vi fått andre utfalls-verdier og derfor andre estimater for sannsynlighets-funksjonen osv. Tallfesting av denne estimerings-usikkerheten er en viktig del av statistisk metodikk.

Den enkleste, og ofte beste, måten å tallfeste denne estimerings-usikkerheten på er bruk av en såkalt ‘Bootstrap’ (etter-håret-løfting) teknikk, som består av følgende steg:

Prediksjon


Basert på det tilfeldige utvalget \(x_1, x_2, … ,x_n\) fra en ukjent underliggende sannsynlighetsfordeling ønsker en ofte å forutsi utfalls-verdien fra et fremtidig tilfeldig forsøk, eller del-forsøk. Dette forsynet blir benevnt å predikere den tilfeldige variablen.

Prediksjon kan baseres på estimerte sannsynlighets-funksjoner eller sannsynlighets-tettheter eller baseres på antakelser om parametriske sannsynlighetsfordelinger med estimerte parametre.

Hypotese-testing


Sannsynlighets-funksjonen antas ofte å komme fra en parametrisk klasse av funksjoner, \(P_X( x; \theta)\). Basert på et tilfeldig utvalg fra denne fordelingen, \(x_1, x_2, … ,x_n\), ønsker en ofte å bekrefte/avkrefte at parameteren , \(\theta\), har en gitt verdi \(\theta_0\). Da utføres en hypotese test for om en kan forkaste påstanden om parameter-verdien, \(\theta=\theta_0\), med en spesifisert signifikans, \(\alpha\).