NDAB21002U Data Science (DS)

Årgang 2022/2023
Engelsk titel

Data Science (DS)

Uddannelse

Bacheloruddannelsen i datalogi
Bacheloruddannelse i Machine Learning og Datavidenskab

Kursusindhold

Dette kursus gennemgår de forskellige komponenter der indgår i en komplet data science pipeline, fra indsamling, processering og oprensning af data, til effektiv lagring i en database, til implementation af statistiske modeller, og udforskning af data gennem visualisering. Kurset vil omhandle håndtering af data fra flere kilder, og der lægges vægt på fundamentelle udfordringer i data science, såsom bias i data, og hvordan dette kan påvirke beslutningstagning på baggrund og trænede modeller.

Målbeskrivelser

Viden om

  • Indlæsning af struktureret tekst
    • Regulære udtryk og endelige automater
    • grammatiker og parsning
  • Database
    • Centrale databasetekniske begreber så som den relationelle model, data-uafhængighed og transaktioner.
    • Entitets-relations-modellering (ER-modellering) og relationel datamodellering, herunder transformationer fra ER-modellering til relationel datamodellering.
    • Forespørgsler i database-forespørgselssprog, herunder både den relationelle algebra og SQL.
    • Teorien om database-normalisering, herunder funktionelle afhængigheder, nøgler og relationelle dekompositioner.
    • Indekseringsteknikker og deres rolle ved performance-forbedring af database-forespørgsler.
    • ACID (atomicity, consistency, isolation, durability) egenskaberne og brug af transaktioner.
  • Data integration
    • Strategier for håndtering af heterogen data
    • Data oprensning, fejlhåndtering og manglende data
    • Ustruktureret til struktureret data
  • Model design og implementation
    • Basale begreber i modellering
    • Struktureret model design
    • Model test strategier
  • Data udforskning og visualisering
    • Eksplorativ data analyse
    • Nøglebegreber i visualisering

 

Færdigheder

  • Skrive scripts til indsamling og processering af data, og indlæsning af struktureret tekst
  • Opsætning af databasesystemer til at understøtte heterogen data
  • Design af modulær pipeline til dataanalyse af et konkret problem
  • Design af meningsfulde visualiseringer

 

Kompetencer

Den studerende forstår de centrale udfordringer i at designe et effektivt data science work-flow der understøtter data fra flere kilder og flere forskellige analyser. Den studerende

  • kan bruge SQL forespørgsler til at lave meningsfulde opslag i en database
  • kan løse basale dataintegrationsopgaver
  • er i stand til at designe og forstå modulære data science pipelines
  • kan producere meningsfulde visualiseringer af data
  • kan klart og præcist dokumentere data science workflows, metoder og resultater

Offentliggøres på kursets Absalon-side ved kursusstart.

Den studerende bør have grundlæggende viden om programmering, algoritmer, lineær algebra, matematisk analyse og statistik. Denne viden kan opnås via følgende kurser:
PoP
MASD og MAD eller MatIntro og SS
DMA eller DMFS (DMFS kan følges sideløbende i blok 3)
LinAlgDat (LinAlgDat kan følges sideløbende i blok 4)
Forelæsninger, øvelser og projekt
Kurset erstatter det nedlagte kursus NDAB18000U Data Science (DS). Du kan altså ikke kan tage NDAB21002U - Data Science (DS), hvis du allerede har bestået NDAB18000U Data Science (DS).
  • Kategori
  • Timer
  • Forelæsninger
  • 72
  • Forberedelse (anslået)
  • 157
  • Teoretiske øvelser
  • 72
  • Projektarbejde
  • 91
  • Eksamen
  • 20
  • I alt
  • 412
Skriftlig
Kollektiv
Løbende feedback i undervisningsforløbet
Point
15 ECTS
Prøveform
Skriftlig aflevering, i løbet af kurset
Skriftlig aflevering, 24-timers
Prøveformsdetaljer
Eksamen består af 2 dele:

1) Et gruppeprojekt, der afleveres som en rapport med individuelle bidrag i løbet af kurset

2) En afsluttende 24-timers individuel skriftlig hjemmeopgave

Projektet vægter 60% af karakteren og den afsluttende skriftlig hjemmeopgave vægter de resterende 40%. Begge dele af eksamen skal dog bestås for at kurset kan bestås, dvs. hver del skal som minimum opnå karakteren 02.

Begge eksamensdele skal bestås i den samme termin.
Krav til indstilling til eksamen

1-3 obligatoriske opgaver, markeret som bestået/ikke bestået, skal bestås for at kunne deltage i eksamen.

Hjælpemidler
Alle hjælpemidler tilladt
Bedømmelsesform
7-trins skala
Censurform
Ingen ekstern censur
Flere interne bedømmere.
Reeksamen

Reeksamensformen består af 2 dele:

1) En projektrapport. Projektrapporten (gen)afleveres (evt. som individuelt projekt), senest 2 uger før reeksamensdatoen.

2) En mundtlig eksamen (30 minutter uden forberedelse) i hele pensum.

Kvalifikation til deltagelse i reeksamen opnås ved (gen)aflevering af obligatoriske opgaver senest 2 uger før reeksamen, således at samme krav som for deltagelse ved ordinær eksamen opfyldes.

Kriterier for bedømmelse

Se målbeskrivelsen.