ISTx1003 Statistikk med statistisk læring og data science (høsten 2021)
Dette er eksterne sider til prosjektdelen av ISTA1003, ISTG1003 og ISTT1003.
Ansvarlig: Stefanie Muff (stefanie.muff@ntnu.no)
- Korrigendum prosjektoppgaven:
- Det var en feil i prosjektoppgaven 1g(ii). Dere skal sammenligne med verdien fra problem 1c(ii), ikke 1c(iii).
- Vi anbefaler at du kjører koden selv, særlig på Oppgave 3, fordi datasettet har endret seg og derfor er også plottet i oppgave 3c annerledes.
- Opptak: Lenker til opptakk fra forlesningene finner dere på Blackboard (Prosjektmoduler - IST1003 Statistisk læring og data science)
Digital veiledning
Mandag 15.11., 14:15 - 15:00
Kwaku (engelsk): https://whereby.com/kwaku-peprah-adjei
Philp (engelsk): https://whereby.com/philip-mostert
Simon (norsk, engelsk): https://whereby.com/istx1003_simon_vetter
Steffi (norsk, engelsk): https://whereby.com/tma4268-exercise-sessions
Fredag 19.11., 12:15 - 14:00
Philp (engelsk): https://whereby.com/philip-mostert
Simon (norsk, engelsk): https://whereby.com/istx1003_simon_vetter
Simen (norsk, engelsk): https://whereby.com/istx1003-veiledning--ved--simen-bog-vikane
Steffi (norsk, engelsk): https://whereby.com/tma4268-exercise-sessions
Mandag 22.11., 14:15 - 15:00
Kwaku (engelsk): https://whereby.com/kwaku-peprah-adjei
Simon (norsk, engelsk): https://whereby.com/istx1003_simon_vetter
Steffi (norsk, engelsk): https://whereby.com/tma4268-exercise-sessions
Fredag 26.11., 12:15 - 14:00
Philp (engelsk): https://whereby.com/philip-mostert
Simen (norsk, engelsk): https://whereby.com/istx1003-veiledning--ved--simen-bog-vikane
Simon (norsk, engelsk): https://whereby.com/istx1003_simon_vetter (bare 13:15-14:00!)
Steffi (norsk, engelsk): https://whereby.com/tma4268-exercise-sessions
For all praktisk informasjon om ukentlige aktiviteter, og opptak fra zoom må du logge inn på kurssiden på Bb for å ha tilgang til: Direktelenke til Bb-sidene til IST1003
Innhold
Modulen består av
- enkel og multippel linear regresjon
- klassifikasjon
- klyngeanalyse.
Introduksjonen til temaet gjøres i zoom-forelesningen, og læringsressursene i modulen er
- tre kompendier (fra Mette Langaas),
- tilhørende korte videoer (fra Mette Langaas), og
- zoomforelesningene.
Læringsmål
Etter du har gjennomført denne modulen skal du kunne:
- forstå når du kan bruke regresjon, klassifikasjon og klyngeananlyse til å løse et ingeniørproblem
- kunne gjennomføre multippel lineær regresjon på et datasett
- bruke logistisk regresjon og nærmeste nabo for utføre en klassifikasjonsoppgave
- bruke hierarkisk og k-means klyngeanalyse på et datasett, forstå begrepet avstandsmål
- og kunne kommunisere resultatene fra regresjon/klassifikasjon/klyngeanalyse til medstudenter og ingeniører
- bli en kritisk leser av resultater fra statistikk/maskinlæring/statistisk læring/data science/kunstig intelligens når disse rapporteres i media, og forstå om resultatene er realistiske ut fra informasjonen som gis
- kunne besvare prosjektoppgaven på en god måte!
Tellende aktivitet (Prosjektoppgave)
Tellende aktivitet er en prosjektoppgave som løses i grupper på 4-6 studenter, og har fokus på å utføre og fortolke statistisk analyse med hjelp av Python og Jupyter-notatbok. Prosjektet består av tre oppgaver (regresjon, klassifikasjon og klyngeanalyse).
Prosjektet - inkludert alt det praktiske - presenteres på første zoomforelesning mandag 1.november kl 14.15-15.00.
Prosjektet kan gi maksimalt 40 poeng, og karakteren settes med prosentvurderingsmetoden hvor poeng blir konvertert i en prosentandel (ikke-heltall prosent blir avrundet). Karakter på prosjektet oppgis som bokstavkarakter.
Endelig karakter i emnet består av en vekting av karakteren på prosjektet (30%) og karakteren på den skriftlige eksamenen (70%). Begge de to karakterene blir oppgitt på studweb, sammen med endelig karakter.
Lenker til filer
- Du finner prosjektoppgaven på Jupyter hubben: https://s.ntnu.no/isthub
- Prosjektoppgaven kommer også som Jupyter notatbok Prosjekt2001_2021.ipynb hvis du vil jobbe på din egen datamaskin.
Prosjektet leveres i Inspera, se informasjon om dette på Blackboard. Se også headeren til prosjektfile og følg instruksjonene nøyaktig.
Frist for innlevering av prosjektet til Inspera er mandag 29.november kl 09.00.
Veiledning til prosjektet
Fysisk veiledning:
- Trondheim: Torsdag 11., 18. og 25. November, 12:15-14:00 (vanlig rom i Sentralbygg S3).
- Ålesund:
- Gjøvik: Onsdag 10., 17. og 24. November, 16:15-18:00 (by Charles Curry, vanlig rom)
Digital veiledning for alle:
- Forumet: https://mattelab2021h.math.ntnu.no/, velg kategorien "ISTx100y Statistikk for bachelor ingeniør" og så "Prosjekt1003 Statistisk læring".
- Veiledning via Whereby
- Man 15.11. og 22.11., 14:15-15:00
- Fre 19.11. og 26.11., 12:15-14:00
Pensum
Pensum er definert som "svarene på det du blir spurt om på prosjektoppgaven" - og det kan du gjøre ved å bruke læringsressursene.
1) Enkel og multippel linear regresjon
Kompendium: Regresjon pdf html
Videoer:
- Multippel lineær regresjon: introduksjon (14:07 min)
Zoom-forelesning
- mandag 1.november kl 13.15-14.00.
- fredag 5.november kl 12.15-13.00.
Slides
2) Klassifikasjon
Kompendium: Klassifikasjon pdf html
Videoer:
- Klassifikasjon: introduksjon og k-nærmeste-nabo (10:58 min)
- Klassifikasjon: logistisk regresjon (14:17 min)
Zoom-forelesning
- fredag 5. november kl 13.15-14.00
- mandag 8. november kl 14.15-15.00
Slides
3) Klyngeanalyse
Kompendium: Klyngeanalyse pdf html
Videoer:
- Klyngeanalyse (8:43 min)
- Hierarkisk klyngeanalyse (11:26 min)
- K-gjennomsnitt klyngeanalyse (8:38 min)
Zoom-forelesning
- fredag 12.november kl 12.15-14.00
Slides
Zoom lenker
Denne lenken gjelder for de 4 zoom-forelesningene:
Mandag 1.11. kl 14.15-15 Fredag, 5.11. kl 12.15-14 Mandag 8.11. kl 14.15-15 Fredag, 12.11. kl 12.15-14
https://NTNU.zoom.us/j/97256555577?pwd=RjBVS2NVRXFZQXNXeGM1bWNONGJIdz09
Meeting ID: 972 5655 5577
Passcode: 891120