Forslag til prosjekt-, master- og bacheloroppgaver for studieåret 2024/2025

Veileder: Håkon Tjelmeland

Nedenfor beskrives kort noen områder hvor undertegnede gjerne veileder prosjekt- og masteroppgaver for studieåret 2024/2025. Du vil her ikke finne veldig konkrete prosjektforslag. I stedet håper jeg at områdene som beskrives høres spennende ut og at du vil ønske å jobbe innen et av disse. Mer konkret hva som skal inngå i et prosjekt må vi i tilfelle diskutere nærmere på slutten av vårsemesteret 2024 eller i starten av høstsemesteret 2024. Det er erfaringsmessig lite hensiktsmessig å spesifisere dette i februar/mars når du uansett ikke skal begynne å arbeide med det før i august.

Dersom du finner et av områdene beskrevet under av interesse, bør du ta kontakt med meg for å diskutere et eventuelt prosjekt nærmere. Du kan stikke innom mitt kontor i 10. etg. i sentralbygg 2 ved en passende anledning, eller du kan sende meg en epost (haakon [dot] tjelmeland [at] ntnu [dot] no) for å avtale et møtetidspunkt.

Modellering og analyse av andelsvariabler (eng: compositional data)

Andelsvariabler (eller compositional data som er den engelske betegnelsen) er variabler som summerer seg til en. Et typisk eksempel er at man tar jordprøver i ulike lokasjoner og er interessert i hvor mye jern, kobber, kobolt, gull og så videre som finnes i hver av jordprøvene. Men det interessante er ikke antall gram av hver av disse metallene da det vil avhenge av hvor stor prøve man tar. Det interessante er andelen av jordprøven (i vekt) som er henholdsvis jern, kobber, kobolt og gull. Det spesielle med slike andelsvariabler er at de nødvendigvis må være positive (eller i hvert fall ikke-negative) og dersom man også inkluderer en "annet"-katogori må andelene nødvendigvis summere seg til en. Utfallsrommet til en vektor \(x=(x_1,\ldots,x_K)\) av andelsvariabler er derfor ikke \(\mathbb{R}^K\), men en simplex

\(S^K = \left.\left\{(x_1,\ldots,x_K)\in\mathbb{R}^K\right|x_i>0,i=1,\ldots,K; \sum_{i=1}^K x_i = 1\right\}\).

At utfallsrommet ikke er \(\mathbb{R}^n\) gjør at de "vanlige" statistiske teknikkene ikke kan benyttes på andelsvariabler. Det vanlige er å gjøre en transformasjon av $x$ til $\mathbb{R}^{K-1}$ og modellere og utføre statistisk analyse av den transformerte vektoren.

Norges Geologiske Undersøkelse (NGU) tar systematisk jordprøver i hver rute i et rutenett som dekker hele Norge. NGU bruker så etablerte statistiske teknikker for andelsvariabler for å analysere dataene. Et problem i den sammenheng er at i en god del av jordprøvene er andelen av noen komponenter så lav at det ikke kan kvantifiseres med de måleinstrumentene som brukes. Noen av andelene er altså sensurert. Man kjenner ikke de korrekte verdiene, bare at andelen er mindre enn en deteksjonsgrense. I noen tilfeller kan det også være at noen andeler ikke er målt slik at man har manglende data (missing data). Etablerte statistiske teknikker for analyse av andelsvariabler baserer seg på at man har observerte samtlige andeler og at alle andelene er positive. I et prosjekt er det derfor av interesse å se på hvordan man kan tilpasse etablerte statistiske teknikker i en situasjon hvor noen andeler er sensurert og/eller mangler.

Prosjektet vil bli utført i samarbeid med ansatte på NGU og vil benytte data som NGU har samlet inn. Se også NGU sin beskrivelse av prosjektet her.

For å ta et prosjekt innen dette temaet bør man, i tillegg til de obligatoriske kursene ta eller ha tatt kursene

Beregningsalgoritmer for romlige stokastiske modeller

(NB: Dette prosjektet er lite egnet for en bacheloroppgave)

Statistikk brukes i dag til å analysere data som man tenker seg er generert fra komplekse systemer. Ofte er modellene romlige og det kan være naturlig å benytte bayesianske modeller for å analysere datene. Hvis man benytter en bayesiansk modell vil man i mange tilfeller ende opp med en aposteriorifordeling som det i liten grad er mulig å utføre analytiske beregninger på. I stedet benytter man enten en variant av stokastisk simulering eller en approksimativ algoritme som beregner en tilnærming til de størrelser man er interessert i.

For å beskrive basisideen for stokastisk simulering, anta at man har en (typisk høydimensjonal) stokastisk vektor \(X\) med sannsynlighetsfordeling \(f(x)\) og at man ønsker å beregne forventingsverdien \(E[g(X)]\), der \(g(x)\) er en kjent funksjon. \(E[g(X)]\) er definert som et høydimensjonalt integral som man ofte ikke greier å evaluere analytisk. I stedet kan man da estimere \(E[g(X)]\) ved først å generere mange realisasjoner, \(X_1,X_2,\ldots,X_n\) fra \(f(x)\) og så beregne gjennomsnittet av \(g(X_1),g(X_2),\ldots,g(X_n)\). Ved å velge \(n\) stor nok kan man få standardavviket til dette estimatet vilkårlig lite. Men merk at denne metoden forutsetter at man er i stand til å simulere realisasjoner fra fordelingen \(f(x)\). Dersom fordelingen \(f(x)\) er komplisert vil det ofte ikke være mulig å lage realisasjoner fra \(f(x)\) direkte. I stedet må man, slik du lærte litt om i TMA4265 Stokastisk modellering og vil lære mer om i TMA4300 Beregningskrevende statistiske metoder i vårsemesteret, benytte såkalte MCMC-metoder (Markov chain Monte Carlo), dvs. konstruere en markovkjede som har \(f(x)\) som sin grensefordeling og så simulere denne markovkjeden til den har konvergert. Ved denne metoden kan man i prinsippet simulere fra de fleste fordelinger som kunne være av interesse. Dessverre (eller kanskje heldigvis?) er verden ikke alltid like enkel i praksis som teorien skulle tilsi. Et av problemene i denne sammenheng er at de markovkjeder man mest naturlig vil ønske å benytte for en del sannsynlighetsfordelinger f(x) vil konvergere så ekstremt sakte at de i praksis er ubrukelige. Man må derfor velge sin markovkjede med omhu og det er av interesse å utforske hvordan man best kan velge en slik markovkjede for spesielle klasser av sannsynlighetsfordelinger f(x).

Et alternativ til stokastisk simulering for å evaluere/estimere/approksimere \(E[g(X)]\) er å benytte ulike approksimative algoritmer. Ofte vil fordelingen \(f(x)\) og/eller funksjonen \(g(x)\) ha en markovegenskap (betinget uavhengighet) og i noen tilfeller kan dette benyttes til å konstruere meget effektive eksakte algoritmer. I andre tilfeller er markovegenskapene til \(f(x)\) og/eller \(g(x)\) ikke tilstrekkelige til å kunne lage effektive eksakte algoritmer. I så fall kan man approksimere \(f(x)\) og/eller \(g(x)\) slik at de tilsvarende approksimative funksjonene har sterkere markovegenskaper.

Et prosjekt vil typisk bestå av at man setter seg inn i en del relevant litteratur, at man ut fra dette studerer/ tilpasser/ videreutvikler metoder og ideer derfra og tester ut/ evaluerer dette ved hjelp av simulering. Det siste betyr typisk at man må implementere metodene som studeres, så det kreves at man er interessert i programmering (det kreves dog ikke at man er en kløpper i programmering, kun at man ikke er redd for å lære dette). Bruk av metodene på sannsynlighetsfordelinger som fremkommer ved analyse av datasett vil vanligvis også bli en naturlig del av et prosjekt.

Det er sannsynlig at et slikt prosjekt vil ble relatert til problemstillinger og datasett fra SFI-senteret Centre for Geophysical Forecasting

Merk at det også er flere andre som tilbyr prosjekter innenfor romlig statistikk og stokastisk simulering og/eller approksimative algoritmer relatert tio slike modeller: Jo Eidsvik, Sara Martino, Geir-Arne Fuglstad og Ingelin Steinsland.

For å ta et prosjekt innen dette temaet må man, i tillegg til de obligatoriske kursene på Industriell matematikk, ta eller ha tatt kursene

Andre kurs som kan være "kjekke å ha" er

Bayesianske modeller for å forstå bedre hvordan friske og schizofrene personer tar beslutninger

I dagliglivet må vi mennesker stadig ta beslutninger. Skal jeg ta stå opp og gå på forelesning eller skal jeg sove lenger? Skal jeg gå over gata på rødt lys eller skal jeg vente på grønn mann? Skal jeg sykle fort nedover denne bakken eller skal jeg være mer forsiktig? Hvordan tar hjernen slike belutninger. Hvis man skal analysere beslutningsproblemet statistisk vil man typisk bruke en bayesiansk modell, formulere en sannsynlighetsfordeling for hva som kan skje og en tapsfunksjon som sier noe om konsekvenser og så velge den beslutningen som har minst forventet tap. Ved hjelp av papir og blyant kan vi så regne oss frem til den "optimale" beslutningen. Men i praksis setter man seg selvfølgelig ikke ned med papir og blyant og regner før man bestemmer som om man skal gå over gata på rødt lys. Vi tar beslutninger mer basert på intuisjon. Så kan vi lure på hvordan de beslutningene vi tar basert på intuisjon stemmer overens med de beslutningene vi ville ha tatt dersom vi hadde tatt oss tid til å regne på situasjonen ved hjelp av en bayesiansk modell. Dette er blant annet psykologer interessert i og de gjør ulike kontrollerte forsøk hvor testpersoner er blitt bedt om å ta beslutninger basert på noen observasjoner. Spesielt interessant er det å se på forskjeller mellom hvordan presumptivt friske personer tar beslutninger og hvordan schizofrene personer tar sine beslutninger. Hvis man forstår denne forskjellen bedre kan man kanskje i fremtiden ved hjelp av slike kontrollerte beslutningsforsøk bli i stand til å si hvilke personer som har spesiell høy sannsynlighet for å utvikle slike sinnslidelser og dermed kunne sette inn behandling som forhindrer at de utvikler alvorlig sykdom.

Et prosjekt innen dette temaet vil bli formulert i samarbeid med Gerit Pfuhl ved Institutt for psykologi, NTNU. Hun arbeider med problemstillingen beskrevet over, har foretatt ulike kontrollerte forsøk, og er interessert i å utvikle statiske modeller som kan beskrive hvordan testpersonene tar sine beslutninger.

Et prosjekt vil typisk bestå av at man setter seg inn i en del relevant litteratur, dette kan være både statistikklitteratur og artikler skrevet av psykologer som omhandler kontrollerte beslutningsforsøk. Man vil så studere/tilpasse/videreutvikle modeller og ideer derfra og tilpasse modellene til observerte beslutninger hos testpersoner. Det kan være aktuelt å benytte bayesianske eller frekventistiske modeller for å beskrive hvordan mennesker tar beslutninger, og så vil man ønske å estimere modellparametre ut fra observerte data. For å beregne størrelsene man er interessert i er det ulike algoritmer som kan være aktuelle, inkludert stokastisk simulering, bootstrapping og EM-algoritmen, avhengig av hva som passer best for den modellen man ser på. Typisk vil man måtte utvikle og implementere en slik algoritme selv, så det kreves at man er interessert i programmering (det kreves dog ikke at man er en kløpper i programmering, kun at man ikke er redd for å lære dette).

For å ta et prosjekt innen dette temaet bør man, i tillegg til de obligatoriske kursene, ta eller ha tatt kursene

Og til slutt:

Forhåpentligvis henger du fremdeles med og finner noe av dette interessant. I så fall oppfordres du som som sagt til å ta kontakt slik at vi kan ta en prat.

Håkon Tjelmeland

2023-11-16, Håkon Tjelmeland