NDAB21002U Data Science (DS)
Data Science (DS)
Bacheloruddannelsen i Datalogi
Bacheloruddannelse i Machine Learning og
Datavidenskab
Dette kursus gennemgår de forskellige komponenter der indgår i en komplet data science pipeline, fra indsamling, processering og oprensning af data, til effektiv lagring i en database, til implementation af statistiske modeller, og udforskning af data gennem visualisering. Kurset vil omhandle håndtering af data fra flere kilder, og der lægges vægt på fundamentelle udfordringer i data science, såsom bias i data, og hvordan dette kan påvirke beslutningstagning på baggrund og trænede modeller.
Viden om
- Indlæsning af struktureret tekst
- Regulære udtryk og endelige automater
- grammatiker og parsning
- Database
- Centrale databasetekniske begreber så som den relationelle model, data-uafhængighed og transaktioner.
- Entitets-relations-modellering (ER-modellering) og relationel datamodellering, herunder transformationer fra ER-modellering til relationel datamodellering.
- Forespørgsler i database-forespørgselssprog, herunder både den relationelle algebra og SQL.
- Teorien om database-normalisering, herunder funktionelle afhængigheder, nøgler og relationelle dekompositioner.
- Indekseringsteknikker og deres rolle ved performance-forbedring af database-forespørgsler.
- ACID (atomicity, consistency, isolation, durability) egenskaberne og brug af transaktioner.
- Data integration
- Strategier for håndtering af heterogen data
- Data oprensning, fejlhåndtering og manglende data
- Ustruktureret til struktureret data
- Model design og implementation
- Basale begreber i modellering
- Struktureret model design
- Model test strategier
- Data udforskning og visualisering
- Eksplorativ data analyse
- Nøglebegreber i visualisering
Færdigheder
- Skrive scripts til indsamling og processering af data, og indlæsning af struktureret tekst
- Opsætning af databasesystemer til at understøtte heterogen data
- Design af modulær pipeline til dataanalyse af et konkret problem
- Design af meningsfulde visualiseringer
Kompetencer
Den studerende forstår de centrale udfordringer i at designe et effektivt data science work-flow der understøtter data fra flere kilder og flere forskellige analyser. Den studerende
- kan bruge SQL forespørgsler til at lave meningsfulde opslag i en database
- kan løse basale dataintegrationsopgaver
- er i stand til at designe og forstå modulære data science pipelines
- kan producere meningsfulde visualiseringer af data
- kan klart og præcist dokumentere data science workflows, metoder og resultater
Offentliggøres på kursets Absalon-side ved kursusstart.
PoP
MASD og MAD eller MatIntro og SS
DMA eller DMFS (DMFS kan følges sideløbende i blok 3)
LinAlgDat (LinAlgDat kan følges sideløbende i blok 4)
- Kategori
- Timer
- Forelæsninger
- 72
- Forberedelse (anslået)
- 157
- Teoretiske øvelser
- 72
- Projektarbejde
- 91
- Eksamen
- 20
- I alt
- 412
Som meritstuderende - klik her!
Som enkeltfags-studerende (efter- og videreuddannelse) - klik
her!
- Point
- 15 ECTS
- Prøveform
- Skriftlig aflevering, i løbet af blok 3Skriftlig prøve, 4 timer efter blok 4 med opsyn.
- Prøveformsdetaljer
- Eksamen består af to dele:
1) en skriftlig projektrapport udarbejdet i grupper med eksplicit definerede individuelle bidrag inden for data science-delen af kurset.
2) en skriftlig stedprøve (4 timer) omhandlende database-delen af kurset, svarende til eksamen på Databases and Information Systems (DIS)
Del 1 og del 2 kan bestås uafhængigt af hinanden, dvs. de behøver ikke blive bestået i den samme eksamenstermin.
Begge delprøver skal bestås individuelt og hver delprøve vægter 50%.
Beståede delprøver kan ikke tages om, og tæller med ved reeksamen med det resultat der blev opnået oprindeligt. - Krav til indstilling til eksamen
Del 1: 3-5 obligatoriske opgaver, hvoraf alle undtagen en skal afleveres og godkendes for at kvalificere sig til eksamen senest 3 uger før eksamensugen for blok 3
Del 2: 2 opgaver samt et gruppeprojekt, der skal afleveres og godkendes senest 3 uger før eksamensugen for blok 4.
- Hjælpemidler
- Kun visse hjælpemidler tilladt
Del 1: alle hjælpemidler godkendt
Del 2 (stedprøven): skriftlige hjælpemidler tilladt, dvs. bøger, noter og printede dokumenter.
- Bedømmelsesform
- 7-trins skala
- Censurform
- Ingen ekstern censur
Flere interne bedømmere.
- Reeksamen
Kvalifikation til deltagelse i reeksamen opnås ved genaflevering og godkendelse af projekt (eventuelt som et individuelt projekt), samt obligatoriske opgaver senest 3 uger før reeksamen, således at samme krav som for deltagelse ved ordinær eksamen opfyldes.
Re-eksamen for del 1:
Den reviderede projektrapport genafleveres fredag i reeksamensugen for blok 3-4.
Re-eksamen for del 2:
Skriftlig stedprøve (4 timer) tilsvarende den ordinære eksamen.
Hvis der er færre end 10 tilmeldte vil eksamen blive ændret til en mundtlig eksamen (30 min. inkl. votering) uden forberedelse.
Kriterier for bedømmelse
Se målbeskrivelsen.
Kursusinformation
- Sprog
- Dansk
- Kursuskode
- NDAB21002U
- Point
- 15 ECTS
- Niveau
- Bachelor
- Varighed
- 2 blokke
- Placering
- Blok 3 og Blok 4
- Skemagruppe
- A (tirs 8-12 + tors 8-17)
- Kursuskapacitet
- Ingen begrænsning
Der kan være færre pladser i eftertilmeldingsperioden
Studienævn
- Studienævn for Matematik og Datalogi
Udbydende institut
- Datalogisk Institut
Udbydende fakultet
- Det Natur- og Biovidenskabelige Fakultet
Kursusansvarlige
- Desmond Elliott (de@di.ku.dk)