NDAB21002U Data Science (DS)
Data Science (DS)
Bacheloruddannelsen i datalogi
Bacheloruddannelse i Machine Learning og
Datavidenskab
Dette kursus gennemgår de forskellige komponenter der indgår i en komplet data science pipeline, fra indsamling, processering og oprensning af data, til effektiv lagring i en database, til implementation af statistiske modeller, og udforskning af data gennem visualisering. Kurset vil omhandle håndtering af data fra flere kilder, og der lægges vægt på fundamentelle udfordringer i data science, såsom bias i data, og hvordan dette kan påvirke beslutningstagning på baggrund og trænede modeller.
Viden om
- Indlæsning af struktureret tekst
- Regulære udtryk og endelige automater
- grammatiker og parsning
- Database
- Centrale databasetekniske begreber så som den relationelle model, data-uafhængighed og transaktioner.
- Entitets-relations-modellering (ER-modellering) og relationel datamodellering, herunder transformationer fra ER-modellering til relationel datamodellering.
- Forespørgsler i database-forespørgselssprog, herunder både den relationelle algebra og SQL.
- Teorien om database-normalisering, herunder funktionelle afhængigheder, nøgler og relationelle dekompositioner.
- Indekseringsteknikker og deres rolle ved performance-forbedring af database-forespørgsler.
- ACID (atomicity, consistency, isolation, durability) egenskaberne og brug af transaktioner.
- Data integration
- Strategier for håndtering af heterogen data
- Data oprensning, fejlhåndtering og manglende data
- Ustruktureret til struktureret data
- Model design og implementation
- Basale begreber i modellering
- Struktureret model design
- Model test strategier
- Data udforskning og visualisering
- Eksplorativ data analyse
- Nøglebegreber i visualisering
Færdigheder
- Skrive scripts til indsamling og processering af data, og indlæsning af struktureret tekst
- Opsætning af databasesystemer til at understøtte heterogen data
- Design af modulær pipeline til dataanalyse af et konkret problem
- Design af meningsfulde visualiseringer
Kompetencer
Den studerende forstår de centrale udfordringer i at designe et effektivt data science work-flow der understøtter data fra flere kilder og flere forskellige analyser. Den studerende
- kan bruge SQL forespørgsler til at lave meningsfulde opslag i en database
- kan løse basale dataintegrationsopgaver
- er i stand til at designe og forstå modulære data science pipelines
- kan producere meningsfulde visualiseringer af data
- kan klart og præcist dokumentere data science workflows, metoder og resultater
PoP
MASD og MAD eller MatIntro og SS
DMA eller DMFS (DMFS kan følges sideløbende i blok 3)
LinAlgDat (LinAlgDat kan følges sideløbende i blok 4)
- Kategori
- Timer
- Forelæsninger
- 72
- Forberedelse (anslået)
- 166
- Teoretiske øvelser
- 72
- Projektarbejde
- 100
- Eksamen
- 2
- I alt
- 412
Som meritstuderende - klik her!
Som enkeltfags-studerende (efter- og videreuddannelse) - klik
her!
- Point
- 15 ECTS
- Prøveform
- Skriftlig aflevering, i løbet af kursetSkriftlig aflevering, 24-timersEksamen består af 2 dele:
1) Et gruppeprojekt, der afleveres som en rapport med individuelle bidrag i løbet af kurset
2) En afsluttende 24-timers individuel skriftlig hjemmeopgave
Projektet vægter 60% af karakteren og den afsluttende skriftlig hjemmeopgave vægter de resterende 40%. Begge dele af eksamen skal dog bestås for at kurset kan bestås, dvs. hver del skal som minimum opnå karakteren 02.
Begge eksamensdele skal bestås i den samme termin. - Krav til indstilling til eksamen
- 1-3 obligatoriske opgaver, markeret som bestået/ikke bestået, skal bestås for at kunne deltage i eksamen.
- Hjælpemidler
- Alle hjælpemidler tilladt
- Bedømmelsesform
- 7-trins skala
- Censurform
- Ingen ekstern censur
Flere interne bedømmere.
- Reeksamen
Reeksamensformen består af 2 dele:
1) En projektrapport. Projektrapporten (gen)afleveres (evt. som individuelt projekt), senest 2 uger før reeksamensdatoen.
2) En mundtlig eksamen (30 minutter uden forberedelse) i hele pensum.
Kvalifikation til deltagelse i reeksamen opnås ved (gen)aflevering af obligatoriske opgaver senest 2 uger før reeksamen, således at samme krav som for deltagelse ved ordinær eksamen opfyldes.
Kriterier for bedømmelse
Se målbeskrivelsen.
Kursusinformation
- Sprog
- Dansk
- Kursuskode
- NDAB21002U
- Point
- 15 ECTS
- Niveau
- Bachelor
- Varighed
- 2 blokke
- Placering
- Blok 3 og Blok 4
- Skemagruppe
- A (tirs 8-12 + tors 8-17)
- Kursuskapacitet
- Ingen begrænsning
Der kan være færre pladser i eftertilmeldingsperioden - Kurset udbydes også til efter- og videreuddannelse
- Studienævn
- Studienævn for Matematik og Datalogi
Udbydende institut
- Datalogisk Institut
Udbydende fakultet
- Det Natur- og Biovidenskabelige Fakultet
Kursusansvarlige
- Desmond Elliott (de@di.ku.dk)