NBIB21000U Analyse og visualisering af biologiske datasæt

Årgang 2023/2024
Engelsk titel

Data Analysis and Visualization for Biological Datasets

Uddannelse

Bacheloruddannelsen i biokemi
Bacheloruddannelsen i biologi

Kursusindhold

Dette kursus bygger på de grundlæggende principper fra statistik, og fokuserer hovedsageligt på praktiske og effektive anvendelser af R til at løse virkelige problemstillinger inden for det biologiske område. Kurset er blandt andet målrettet håndteringen af den stigende mængde af molekylære data, og vil således give de studerende redskaber til dataanalyse projekter indenfor bioinformatik og molekylær biologi.

De studerende vil lære nye metoder til at lave skalerbare analyser af datasæt med speciel fokus på at kunne fremstille hensigtsmæssige grafer og visualiseringer af deres data, som kan støtte dataanalysen og bidrage til effektiv formidling af biologiske resultater. De studerende forudsættes at have et basalt kendskab til R fra deres tidligere kurser og vil i dette kursus bygge oven på denne viden gennem brug af R-pakkerne, der udgør Tidyverse (https://www.tidyverse.org/). Tidyverse (herunder ggplot2 til at lave plots) er en samling af R-pakker, der implementer en intuitiv strategi for opbygning af kommandoer til bearbejdning og plotning af data. 

Undervisningen består af videoer med forelæsninger og demonstration af analyser, samt kursusnoter, quizzer og øvelser. I undervisningstimerne lægges der meget vægt på praktiske øvelser, der tages udgangspunkt i små datasæt, som er nemme at importere og gode til at demonstrere de forskellige principper. Derudover er der en opgave hver uge med hovedfokus på en mere sammenhængende analyse af relevante datasæt fra studier omhandlende gen-ekspression, genomisk data og fra forskellige ”high through-put” metoder. Målet er således at de studerende får opbygget et fundament, der vil gøre det muligt at arbejde uafhængigt på egne datasæt og projekter.

OBS: For studerende med interesse for økologiske datasæt anbefales kurset ”Økologisk dataanalyse med R”. Det anbefales ikke, at man tager begge kurser.


Dette kursus indeholder bl.a.:

  • Import, oprydning og klargøring af biologiske datasæt vha. R-pakkerne fra Tidyverse.
  • Fremstilling af figurer vha. Tidyverse-pakken ggplot2, med henblik på publicering og/eller præsentation.
  • Brug af R-markdown til at skrive, gemme og køre R-kode, samt fremstilling af rapporter som kan deles med andre.
  • Anvendelse af statiske metoder for at støtte analyseringsprocessen og drage hensigtsmæssige konklusioner ud fra resultaterne.
  • Implementering af reproducerbar dataanalyse vha. funktioner og iteration (Tidyverse pakke purrr)
  • Tidyverse baseret implementering af statistiske analysemetoder til bl.a. visualisering af trends og testning af hypoteser.
  • Brug af clustering metoder og algoritmer, samt principal component analyse (PCA) til at lave effektiv visualisering af genomisk data.
  • Brug af plots som metode til at vurdere eksperimental design og mulige artefakter
  • Forståelse af baserende begreber fra maskinlæring og anvendelse af krydsvalidering indenfor den Tidyverse ramme til at evaluere en simpel klassificeringsmodel
  • Afhængig af tid: præsentation af datasæt i en app vha. Tidyverse pakken Shiny
Målbeskrivelser

Kursets læringsmål er at give de studerende viden og færdigheder til at analysere biologiske datasæt og visualisere resultaterne af analyserne samt at kunne dokumentere analysen og gøre den producerbar.
 

Viden:

Ved afslutningen af kurset, er de studerende i stand til at:

  • Kende og benytte relevante statistiske analysemetoder for biologiske datasæt.
  • Kende og benytte god praksis for reproducerbar dataanalyse.
  • Kende og benytte basale regler til effektiv data visualisering.

 

rdigheder:

Ved afslutningen af kurset, er de studerende i stand til at:

  • Anvende R og R pakker til dataanalyser.
  • Kode enkle R funktioner og anvende iteration til at gøre dataanalyse reproducerbar.
  • Benytte R markdown til at dokumentere deres dataanalyser.
  • Benytte R til at plotte og visualisere data.

 

Kompetencer:

Ved afslutningen af kurset, er de studerende i stand til at:

  • Udføre en statistisk korrekt, reproducerbar og veldokumenteret analyse af et biologisk datasæt.
  • Visualisere resultater af dataanalyse så disse effektivt gengiver de vigtigste resultater.
Det forventes at de studerende har bestået et kursus i statistik og har basalt kendskab til R, svarende til enten Matematik/Statistik for biologer, Statistik for biokemikere (StatBK) eller lignende. Indholdet af dette kursus overlapper til dels med pensum i kurset ”Økologisk dataanalyse med R” og det anbefales ikke for studerende at tage begge kurser.
Hybrid mellem forelæsninger og computer øvelser. Kurset har en ’learning-by-doing’ tilgang. Online video tutorials og kursus notater vil introducere teori og praktik, mens at der i, selve undervisningstimerne vil være fokus på at lave øvelser, helst indenfor små arbejdsgrupper, og få gennemgået øvelserne efterfølgende. I løbet af kurset vil der også være quizzes, der sørger for at de studerende har forstået emnerne fra uge til uge.
Kurset er identisk med det nedlagte kursus NBIB20001U Visualisering af biologiske datasæt. Du kan altså ikke kan tage NBIB21000U - Analyse og visualisering af biologiske datasæt, hvis du allerede har bestået NBIB20001U Visualisering af biologiske datasæt.
Hvis du er registreret med eksamensforsøg i NBIB20001U Visualisering af biologiske datasætuden at bestå, skal du bruge dine sidste eksamensforsøg på at bestå eksamen i NBIB21000U - Analyse og visualisering af biologiske datasæt. Du har i alt tre eksamensforsøg.
  • Kategori
  • Timer
  • Forelæsninger
  • 32
  • Forberedelse (anslået)
  • 129
  • Praktiske øvelser
  • 32
  • Eksamensforberedelse
  • 9
  • Eksamen
  • 4
  • I alt
  • 206
Skriftlig
Individuel

Individuel feedback på pre-tests.

Point
7,5 ECTS
Prøveform
Skriftlig prøve, 4 timer
Løbende bedømmelse, Quizzer på Absalon
Prøveformsdetaljer
Eksamen består af en praktisk analyse af et datasæt, som den studerende vil lave i Rmarkdown og aflevere i html form. Karaktergivning er baseret på analysens reproducerbarhed, relevans og kvaliteten af præsentationen af analysen. De studerende vil få forskellige delmængder af et større datasæt at analysere.

Instituttet afholder selv denne eksamen og stiller ikke computer til rådighed.

Derudover vil løbende bedømmelse udgøre 15% af den samlede karakter. For at få den fulde 15% skal den studerende demonstrere, at de laver et forsøg på de fleste af quizzerne, samt at de deltager i peerfeedback-systemet i forbindelse med nogle af workshop opgaver.

Løbende bedømmelse tæller 15%, af den samlede karakter
Den skriftlige prøve tæller 85%, af den samlede karakter
Hjælpemidler
Alle hjælpemidler tilladt
Bedømmelsesform
7-trins skala
Censurform
Ingen ekstern censur
Flere interne bedømmere.
Reeksamen

Samme som ordinær eksamen.

Kriterier for bedømmelse

For at opnå karakteren 12, skal den studerende overbevisende og præcist kunne demonstrere viden, færdigheder og kompetencer som beskrevet under målbeskrivelsen.