Bachelor, prosjekt og masteroppgaver, Thea Bjørnland
Her finner du forslag til temaer for prosjekter innenfor ulike tema, både anvendte prosjekter og prosjekter av en mer teoretisk karakter. De fleste temaene kan tilpasses både bachelor og masternivå. Ta kontakt med meg dersom du er interessert.
English: Below you may read suggestions for projects. Most of them can be tailored to fit both a bachelor and master level thesis. Please contact me if you are interested so that we can decide upon a project.
Forslag:
Utvikle en R-pakke for hypotesetesting i GLM med sadelpunktapproksimasjon
Denne oppgaven går ut på å utvikle en R-pakke med utgangspunkt i resultater fra en tidligere masteroppgave. Som del av oppgaven må du sette deg inn i teori rundt hypotesetesting i GLM og sadelpunktmetoder for "higher order asymptotics".
Statistisk inferens i store, ubalanserte datasett
Selv om vi har et stort datasett kan vi få problemer med normaltilnærmingen av kjente testobservatorer. Dette problemet ser vi for eksempel i svært ubalanserte kasus-kontroll-studier. En løsning på dette problemet vil være å finne en bedre tilnærming til testobservatorens fordeling, men vi kan også vurdere "sub-sampling" i et forsøk på å balansere dataene. Dette kan vi forvente at går på bekostning av teststyrke, noe du i denne oppgaven kan undersøke ved hjelp av simulerte data.
Utvikle en R-pakke for hypotesetesting for respons-avhengige utvalg
Denne oppgaven går ut på å videreutvikle en R-pakke for hypotesetesting innenfor feltet "response-dependent sampling" og "missing data", med fokus på interaksjonseffekter.
Rare variant association tests in genetic association studies
Hovedvekten av min forskning er innenfor statistiske metoder for genetikk. Når genetiske varianter langs hele genomet testes mot en fenotype (f.eks. sykdom) brukes egne tester for grupper av sjeldne varianter, der den mest populære heter Sequence Kernel Association Test (SKAT). Denne oppgaven går ut på å studere ulike metoder for å teste for assosiasjon mellom sjeldne genetiske varianter og sykdom, og anvende disse på simulerte data.
Taskforce salmon lice
Jeg samarbeider for tiden med biologer i prosjektet "taskforce lakselus" https://www.ntnu.edu/oceans/taskforce. Basert på dette kan vi lage anvendte oppgaver med lusedata. Generaliserte lineære modeller og mixed effects modeller vil være aktuelle metoder i dette prosjektet (GLM og GLMM).
Project with Sintef Digital
Background: The focus is on the construction of forecasting models on process industry data. In particular, as a continuation of research done in the Analytics & AI group at SINTEF Digital, we want to improve on our recently developed "chunk-based ensemble model". We use real sensor data from a wastewater treatment plant in Norway to test the ability of the forecasting model. We want to use the forecasting model in the context of control systems (such as model predictive controls). Method: The idea is that models are trained on different disjoint intervals of the dataset to learn and focus on different relationships in the data. At prediction time the forecasts is a linear relationship between predictions from previously trained model. How to weight the models is of particular interest, and at this point the weights are assigned based on how the models perform on recent data (formulated as a quadratic programming optimization problem). We now want to test a clustering method such that similar dynamics in the data is placed in the same cluster, and train a model for each cluster. The thesis will focus on how these clusters should be made, and how the models trained on each cluster should be combined at prediction time. Recommended literature/courses: TMA4285 Time series, TMA4268 Statistical learning, TTK4105 Control Systems, TTK4135 Optimization and Control Supervisor: The project will be supervised by Pål Vegard Johnsen at SINTEF Digital, with me as formal supervisor at IMF, and in collaboration with prof. Mette Langaas. Contact Pål if you want to know more!
Spørreskjema-analyser og prediksjon
Det finnes en rekke metoder for å studere data samlet inn med spørreskjema der svarene gjerne er på en såkalt likert-skala (helt uenig, uenig, nøytral, enig, helt enig). I denne oppgaven får du blant annet bruk for verktøy fra statistisk læring.
Using survey data (Attitudes Towards Mathematics, Achievement Goals and study habits) from approx. 400 students, the challenge of this project is to make a model for final grade prediction. Are self-reported achievement goals and attitudes towards mathematics in fact good indicators of final grades? You will use methods from statistical learning such as decision trees and random forests. On this page you can see a nice example of how the analysis may look.
Remark: this project may be best suited for bachelor level and requires the course TMA4269 Statistisk læring.
Optimal sampling designs for regression
If our goal is to fit a regression model (linear or logistic) and we may beforehand select a sample based on limited information (e.g.knowledge of the covariates, or the response), what is the optimal sampling design? Random samples, which you learn about in most basic statistics courses, are convenient but not optimal. We will look into optimality in the sense of minimising the variance of the estimator \(\hat{\beta}\) and study A-optimality and D-optimality (for a brief introduction, see https://en.wikipedia.org/wiki/Optimal_design). After we have decided upon a design and gathered data, how do we go about making inference? That is, how do we estimate parameters and test hypothesis when our sample is not random?
Remark: this is a theoretical project intended for master level.
Recommended courses
Some basic knowledge in statistics (e.g. TMA4240/45 Statistikk, TMA4267 Lineære statistiske modeller, ST1101 Sannsynlighetsregning og statistikk, ST1201 Statistiske metoder) is necessary and more advanced courses such as statistical inference, statistical learning, generalized statistical methods are encouraged. We will mainly use R for data analysis (implementing methods and using existing packages).