Detail předmětu

Vícerozměrná analýza biologických dat

FEKT-MPC-VMMAk. rok: 2024/2025

Předmět je orientován na běžně používané metody z oblasti analýzy vícerozměrných dat: shluková analýza, faktorová analýza, metoda hlavních komponent, t-SNE, UMAP, apod. Jsou probíraný jak teoretické (základní principy jednotlivých metod), tak praktické (aplikace při zobrazování a analýze vícerozměrných dat) aspekty. Teorie je probíraná v přímé spojitosti s praktickými příklady. Veškeré výpočetní techniky jsou procvičovány s pomocí prostředí Python. Kurz připravuje posluchače k samostatnému využití daných metod pro analýzu dat ve vlastní vědecké či rutinní práci. 

Jazyk výuky

čeština

Počet kreditů

5

Vstupní znalosti

Student by měl mít znalosti z oblasti základní statistické analýzy dat a lineární algebry. V laboratorní výuce je předpokládána znalost Python.

 

Pravidla hodnocení a ukončení předmětu

Bodové hodnocení předmětu:

1) Týmový projekt (max. 20 bodů):
• Zpracování originálního řešení týmového projektu a jeho obhajoba na konci semestru (podle pokynů)

Pozn.:
- Hodnoceno bude splnění zadání a kvalita prezentace výsledků všemi členy týmu
- Plagiátorství bude mít za následek neudělení zápočtu

- Povinná alespoň jedna konzultace týmu s konzultantem!


2) Závěrečná zkouška (max. 80 bodů):
• ústní forma
• celkem dvě části, každá za max. 40 bodů

Podmínky pro udělení zápočtu a připuštění k závěrečné zkoušce:
• získání nenulového počtu bodů za týmový projekt
• maximálně dvě omluvené neúčastí na cvičeních (ve výjimečných případech rozhodne o řešení garant předmětu)

Podmínky pro úspěšné absolvování předmětu:
• získání zápočtu
• získání nejméně 20 bodů z každé ze dvou částí zkoušky
• získání celkem (tj. z projektu a zkoušky) alespoň 50 bodů

Učební cíle

Cílem předmětu je poskytnout studentům znalosti z oblasti vícerozměrné analýzy dat a prezentovat jim možnosti využiti vybraných postupů při zpracování a analýze biomedicínských dat.
Posluchač získá základní znalosti a dovednosti z oblasti využití metod vícerozměrné analýzy. Bude schopen aplikovat nejčastěji používané metody v praxi za účelem zpracování a analýzy dat.
Zkouškou se ověřuje, že absolvent předmětu je schopen:
- vysvětlit základní pojmy z oblasti vícerozměrné analýzy,
- popsat základní metody v této oblasti, diskutovat výhody a nevýhody jednotlivých metod,
- vybrat a použít vhodné nástroje pro daný problém z této oblasti,
- vyhodnotit kvalitu dosažených výsledků a prezentovat je ve vhodné formě,
- interpretovat dosažené výsledky.

 

Základní literatura

D. Haruštiaková, J. Jarkovský, S. Littnerová, L. Dušek: Vícerozměrné statistické metody v biologii, CERM 2012 (CS)
J. Holčík: Analýza a klasifikace dat, CERM 2012 (CS)
M. Meloun, J. Militký: Kompendium statistického zpracování dat, Academia 2006 (CS)
Meloun M. a kol.: Statistická analýza vícerozměrných dat v příkladech, 2017, Karolinum, 978-80-246-3618-4

Doporučená literatura

A. Hyvärinen, J. Karhunen, E. Oja: Independent Component Analysis, Wiley 2001 (CS)
M. Kovár: Maticový a tenzorový počet, VUT v Brně (CS)

Elearning

Zařazení předmětu ve studijních plánech

  • Program MPC-BIO magisterský navazující 1 ročník, zimní semestr, povinný
  • Program MPC-BTB magisterský navazující 1 ročník, zimní semestr, povinně volitelný

Typ (způsob) výuky

 

Přednáška

26 hod., nepovinná

Vyučující / Lektor

Osnova

1. Úvod do vícerozměrné analýzy biologických dat. Cíle vícerozměrné analýzy, výhody a nevýhody. Klasifikace metod.
2. Základy lineární algebry - opakování.
3. Vícerozměrné statistické rozdělení a testy.
4. Metody předzpracování dat. Typy transformace a standardizace. Problém chybějících dat.
5. Vztah mezi proměnnými ve vícerozměrném prostoru. Metriky podobnosti a vzdálenosti. Korelace, kovariance.
6. Shluková analýza biologických dat. Hierarchické a nehierarchické metody. Stanovení optimálního počtu shluků. Validace výsledků shlukování.
7. Ordinační analýzy. Přehled metod používaných v biomedicíně.
8. Analýza hlavních komponent. Princip singulárního rozkladu matice.
9. Faktorová analýza. Princip faktorové analýzy. Rotace faktorů.
10. Nelineární metody redukce dimenzionality dat. Metoda t-SNE.

11. Nelineární metody redukce dimenzionality dat. Metoda UMAP.
12. Příklady využití vícerozměrné analýzy biologických dat.

 

Cvičení na počítači

26 hod., povinná

Vyučující / Lektor

Osnova

1. Úvod do Python

2. Průzkumová analýza dat I: vizualizace, statistická deskriptivní analýza

3. Průzkumová analýza dat II: zpracování dat, korelační analýza

4. Vztahy ve vícerozměrném prostoru I

5. Vztahy ve vícerozměrném prostoru II

6. Ordinační analýza I: PCA

7. Ordinační analýza II: kernel PCA

8. Shluková analýza I: k-means, UPGMA

9. Shluková analýza II: hodnocení kvality shluků

10. Vizualizace vícerozměrných dat I: t-SNE

11. Vizualizace vícerozměrných dat II: UMAP

 

Elearning