ISTx1003 Statistikk med statistisk læring og data science (høsten 2020)
All informasjon i alle 9 varianter av ISTx100y Statistikk finnes på Blackboard.
Dette er eksterne sider til prosjektdelen av ISTA1003, ISTG1003 og ISTT1003.
All praktisk informasjon om ukentlige aktiviteter, og opptak fra zoom må du logge inn på Bb for å ha tilgang til: Direktelenke til Bb-sidene til IST1003
Innhold
Modulen består av
- introduksjon til statistisk læring og data science
- regresjon
- klassifikasjon
- klyngeanalyse.
Introduksjonen til temaet gjøres i zoom-forelesningen, og læringsressursene i modulen er
- tre kompendier,
- tilhørende videoer, og
- zoomforelesningene.
Læringsmål
Etter du har gjennomført denne modulen skal du kunne:
- forstå når du kan bruke regresjon, klassifikasjon og klyngeananlyse til å løse et ingeniørproblem
- kunne gjennomføre multippel lineær regresjon på et datasett
- bruke logistisk regresjon og nærmeste nabo for utføre en klassifikasjonsoppgave
- bruke hierarkisk og k-means klyngeanalyse på et datasett, forstå begrepet avstandsmål
- og kunne kommunisere resultatene fra regresjon/klassifikasjon/klyngeanalyse til medstudenter og ingeniører
- bli en kritisk leser av resultater fra statistikk/maskinlæring/statistisk læring/data science/kunstig intelligens når disse rapporteres i media, og forstå om resultatene er realistiske ut fra informasjonen som gis
- kunne besvare prosjektoppgaven på en god måte!
Tellende aktivitet
Tellende aktivitet er en prosjektoppgave (20 spørsmålspunkt) som løses i grupper på maksimal 4 studenter, og har fokus på å utføre og fortolke statistisk analyse med hjelp av Python og Jupyter-notatbok. Prosjektet består av tre oppgaver (regresjon, klassifikasjon og klyngeanalyse).
Prosjektet - inkludert alt det praktiske - presenteres på første zoomforelesning onsdag 21.oktober kl 8.15-10.00.
Prosjektet kan gi maksimalt 20 poeng, og NTNUs karaktergrenser er planlagt brukt. Karakter på prosjektet oppgis som bokstavkarakter.
Endelig karakter i emnet består av en vekting av karakteren på prosjektet (20%) og karakteren på den skriftlige eksamenen (80%). Begge de to karakterene blir oppgitt på studweb, sammen med endelig karakter.
Lenker til filer
Prosjektoppgaven i to formater:
- Jupyter notatbok
- og html
Og her er
- Malen for innleveringen: som tekst
- og word
Oppgaven leveres inn på Bb - direktelenke til Prosjektområdet
Løsningsforslag:
- Svar på spørsmålene:
- Python-kode i Jupyter-notatbok :
Pensum
Pensum er definert som "svarene på det du blir spurt om på prosjektoppgaven" - og det kan du gjøre ved å bruke læringsressursene. Det blir ikke spørsmål fra prosjektmodulen på den skriftlige eksamenen, men det du lærer i modulen kan gjøre at du får en god forståelse av temaene i fellesmodulen - spesielt inferensdelen av emnet (estimering, hypotesetesting, enkel lineær regresjon).
Introduksjon
Zoom-forelesninger (fast lenke for alle temaer)
https://NTNU.zoom.us/j/97256555577?pwd=RjBVS2NVRXFZQXNXeGM1bWNONGJIdz09
Meeting ID: 972 5655 5577
Passcode: 891120
Regresjon
Kompendium: Regresjon pdf html
Videoer:
- Multippel lineær regresjon: introduksjon (14:07 min)
Zoom-forelesning
- Mandag, 1.11., kl 14.15-15.00
- Fredag, 5.11. kl 12.15-13.00
Klassifikasjon
Kompendium: Klassifikasjon pdf html
Videoer:
- Klassifikasjon: introduksjon og k-nærmeste-nabo (10:58 min)
- Klassifikasjon: logistisk regresjon (14:17 min)
Zoom-forelesning
- Fredag, 5.11. kl 13.15-14.00
- Mandag, 8.11. kl 14:15-15.00
Klyngeanalyse
Kompendium: Klyngeanalyse pdf html
Videoer:
- Klyngeanalyse (8:43 min)
- Hierarkisk klyngeanalyse (11:26 min)
- K-gjennomsnitt klyngeanalyse (8:38 min)
Zoom-forelesning
- Fredag, 12.11. kl 12.15-14.00