Prosjektmodul 1003: Statistisk læring og data science
Dette er eksterne sider til prosjektdelen av ISTA1003, ISTG1003 og ISTT1003.
Ansvarlig: Stefanie Muff (stefanie.muff@ntnu.no)
Hva finner du her:
Jupyter notatboken med fasiten finner du her Prosjekt1003_2025_solution.ipynb. Pdf filen av hele jupyter notatboken er lagret her: Prosjekt1003_2025_solution.pdf.
Innlevering av prosjektet i Inspera
Innlevering foregår i Inspera, og dere bør forberede innlevering i god tid før klokka 12:00.
Les om gruppeinnlevering her: https://i.ntnu.no/wiki/-/wiki/Norsk/Gruppeinnlevering+i+Inspera+-+for+studenter
Typen innlevering heter "kandidatstyrte grupper" så én i gruppa må først opprette en gruppe i Inspera og deretter dele kode med resten. Alle gruppemedlemmer må være deltagere i gruppa i Inspera for at karakteren skal registreres til dere (det holder ikke med kandidatnr på forsiden).
Korrektur i prosjektoppgaven
Spørsmål 1g)(ii) skulle hete: (ii) Hva er andel forklart variasjon? Sammenlign med verdien du fant i Problem 1c(ii). Var det en god idé å bruke multippel lineær regresjon, eller var enkel linear regresjon godt nok?
Det betyr at dere må sammenligne med resultatet 1c(ii), ikke 1c(iii), som ikke finnes.
Hvem?
- Studieprogram som skal ta modulen:
- BIDATA, BDIGSEC, BELDIG og BPROG i Trondheim, Gjøvik og Ålesund
- Fagteamet:
- Faglig ansvarlig for innholdet i modulen er Stefanie Muff, stefanie.muff@ntnu.no.
- Og i veilederteamet (for prosjektet) inngår i tillegg to sudentassistenter:
- Morten Egeberg Christiansen mortenec@stud.ntnu.no
- Oscar Kehinde Asplin Martins okmartin@stud.ntnu.no
Læringsmål
Etter du har gjennomført denne modulen skal du kunne:
- forstå når du kan bruke regresjon, klassifikasjon og klyngeananlyse til å løse et ingeniørproblem
- kunne gjennomføre multippel lineær regresjon på et datasett
- bruke logistisk regresjon og nærmeste nabo for utføre en klassifikasjonsoppgave
- bruke hierarkisk og k-means klyngeanalyse på et datasett, forstå begrepet avstandsmål
- og kunne kommunisere resultatene fra regresjon/klassifikasjon/klyngeanalyse til medstudenter og ingeniører
- bli en kritisk leser av resultater fra statistikk/maskinlæring/statistisk læring/data science/kunstig intelligens når disse rapporteres i media, og forstå om resultatene er realistiske ut fra informasjonen som gis
- kunne besvare prosjektoppgaven på en god måte!
Pensum
Pensum er definert som "svarene på det du blir spurt om på prosjektoppgaven" - og det kan du gjøre ved å bruke læringsressursene. Det blir ikke spørsmål fra prosjektmodulen på den skriftlige eksamenen, men det du lærer i modulen kan gjøre at du får en god forståelse av temaene i fellesmodulen - spesielt inferensdelen av emnet (estimering, hypotesetesting, enkel lineær regresjon).
I tillegg til kompendiene og videoene som ligger her, er forelesningene en del av læringsressursene. Link til zoom, opptak og slides ligger i mappen "Forelesninger og veiledning til prosjektet".
1) Regresjon
Zoom-forelesninger
- Mandag 20.oktober kl 14:15-15:00
- Tirsdag 21.oktober, kl 14:15-15:00
Innhold
Korte videoer
- Multippel lineær regresjon: Introduksjon
- Multippel lineær regresjon: Analyse av et datasett
Videoer er laget av Mette Langaas.
2) Klassifikasjon
Zoom-forelesninger
- Tirsdag 21.oktober, kl 15:15-16:00
- Mandag 27.oktober, kl 14:15-15:00
Innhold
Korte videoer:
- Klassifikasjon: Introduksjon og k-nærmeste-nabo
- Klassifikasjon: Logistisk regresjon
Videoer er laget av Mette Langaas.
3) Klyngeanalyse
Zoom-forelesninger
- Tirsdag 28.oktober, kl 10:15-12:00
Innhold
Korte videoer
Videoer er laget av Mette Langaas.
Forelesninger og veiledning til prosjekt
Alle forelesningene til modulet er over zoom, mens veiledning til prosjektet foregår fysisk på hver campus.
Vi bruker de første 2 ukene mandag og tirsdag for forlesninger:
- Mandag 20.10. kl 14.15-15.00
- Tirsdag, 21.10. kl 14.15-16.00
- Mandag 27.10. kl 14.15-15.00
- Tirsdag, 28.10. kl 10.15-12.00
Denne lenken gjelder for de 4 zoom-forelesningene:
https://NTNU.zoom.us/j/97369415584?pwd=UKZlvkFF5tqrWMVRjgEdAKUY6dO24H.1
Meeting ID: 973 6941 5584 Passcode: 196247
Det blir gjort opptak. Lenke til videoene kommer.
Fysisk veiledning i Trondheim:
- Trondheim: Fredager 24.10, 31.10., 7.11, og 14.11., 10:15-12:00 (vanlig rom, Sentralbygg 2, S5).
Digital veiledning:
For Ålesund og Gjøvik:
- Mandag, 3.11. og 10.11., 14:15-15:00
- Tirsdag, 4.11. og 11.11., 10.15-12.00
- Ålesund: Digital veiledning. I tillegg kan gruppene avtale et tidspunkt med Siebe - se blackboardsiden ISTA - campus Ålesund for mer informasjon.
- Gjøvik: Kun digital veiledning
Bruk lenken nede, tillat camera/microphone access, og så ma du "banke" på den virtuelle Whereby døren. Vi slipper deg inn så snart som vi er tilgjengelige, men vær oppmerksom på at dere står i kø og at det kan ta litt tid. Bare én person per prosjektgruppe skal stå i kø samtigid.
https://whereby.com/stefanies-whereby
Mattelab forum:
En veldig bra alternative til digital/fysisk veiledning er Mattelab forumet. Vi svarer så fort som mulig:
- Åpent 24/7, men stenger fredag, 14.11., 17:00. Det vil si at, etter dette tidspunktet, kan vi ikke garantere svar.
Tellende aktivitet (Prosjektoppgave)
Tellende aktivitet er en prosjektoppgave som løses i grupper på 4-6 studenter, og har fokus på å utføre og fortolke statistisk analyse med hjelp av Python og Jupyter-notatbok. Prosjektet består av tre oppgaver (regresjon, klassifikasjon og klyngeanalyse).
Prosjektet - inkludert alt det praktiske - presenteres på første zoomforelesning mandag 20.oktober kl 14.15-15.00.
Prosjektet kan gi maksimalt 40 poeng, og karakteren settes med prosentvurderingsmetoden hvor poeng blir konvertert i en prosentandel (ikke-heltall prosent blir avrundet). Karakter på prosjektet oppgis som bokstavkarakter.
Endelig karakter i emnet består av en vekting av karakteren på prosjektet (30%) og karakteren på den skriftlige eksamenen (70%). Begge de to karakterene blir oppgitt på studweb, sammen med endelig karakter.
OBS!
Frist til innlevering: Mandag 17. november 12:00
Prosjektet leveres i Inspera, se informasjon om dette på Blackboard. Se også headeren til prosjektfile og følg instruksjonene nøyaktig.
Lenker til filer
- Du finner prosjektoppgaven på Jupyter hubben: https://s.ntnu.no/isthub
- Prosjektoppgaven kommer også som Jupyter notatbok Prosjekt1003_2025.ipynb hvis du vil jobbe på din egen datamaskin.
- Bruk dette svararket for alle dine svar.