Detail předmětu

Vybrané problémy získávání znalostí z databází

FIT-ZZDAk. rok: 2019/2020

  1. Prohloubení znalostí základů získávání znalostí z databází - základy metod předzpracování (statistické veličiny používané při sumarizaci, přístupy k číštění, transformaci a redukci dat), základy datových skladů, základní metody a algoritmy dolování frekventovaných vzorů a asociačních pravidel (algoritmus Apriori, FP-strom, víceúrovňová asociační pravidla, dolování vícedimenzionálních asociačních pravidel z relačních databází), základní metody a algoritmy klasifikace (rozhodovací strom, bayesovská klasifikace, klasifikace využitím neuronových sítí, SVM) a predikce (lineární a nelineární regrese), základní metody a algoritmy shlukové analýzy (způsoby vyjadřování vzdálenosti dat, rozčleňovací metody, hierarchické metody, CF-strom, metody založené na hustotě, metody založené na mřížce a na modelu).
  2. Pokročilé techniky dolování dat - pokročilé techniky dolování znalostí z 'klasických' zdrojů dat, techniky dolování v proudech dat, časových řadách a posloupnostech, dolování v biologických datech, dolování v grafových strukturách, multirelační dolování, dolování v objektových, prostorových a multimediálních datech, dolování v textu, dolování na WWW.

Část 1 představuje základní témata.Dobrá znalost v této oblasti se očekává od všech absolventů předmětu. Tato část odpovídá kapitolám 1 až 12 v učebnici [1]. V části 2 se očekává od studentů přehled a porozumění základům (formulace problému, základní charakteristika přístupů k řešení) u všech témat. Hlubší znalosti se vyžaduje u tématu, které zpracovali a prezentovali na závěrečném semináři předmětu. Toto téma zpravidla nějak souvisí se zaměřením disertační práce. Tato část odpovídá kapitolám 8 až 10 v učebnici [2], ale zejména se předpokládá využití nejnovějších zdrojů informací dostupných ve sbornících z konferencí a v časopisech.

Okruhy otázek k SDZ:

  1. Předzpracování dat pro dolování.
  2. Dolování frekventovaných položek a asociačních pravidel.
  3. Klasifikace - rozhodovací stromy a bayesovská klasifikace.
  4. Klasifikace využitím neuronových sítí, SVM.
  5. Predikce.
  6. Shlukování - způsoby vyjadřování vzdálenosti, klasifikace metod a jejich charakteristika.
  7. Shlukování - rozčleňovací a hierarchické metody.
  8. Shlukování - metody založené na hustotě a mřížce.
  9. Dolování v proudech dat.
  10. Dolování na webu.

Jazyk výuky

čeština

Výsledky učení předmětu

Studenti získají dostatečně široký a přitom i dostatečně do hloubky jdoucí přehled v oblasti získávání znalostí z dat. Hlubší znalosti získají především v oblasti související s tématem disertační práce.

Prerekvizity

Studenti by měli mít základní znalosti ze statistiky, databázových systémů, teorie informace, strojového učení, neuronových sítí. Předpokládá se rovněž absolvování nějakého předmětu zaměřeného na základy získávání znalostí z databází v rámci magisterského studia.

Způsob a kritéria hodnocení

Kontrolní otázky v průběhu konzultací.

Učební cíle

Prohloubit znalosti studentů v oblasti získávání znalostí z databází a jiných datových zdrojů se zaměřením na teoretické základy používaných technik, algoritmů a modelů.

Vymezení kontrolované výuky a způsob jejího provádění a formy nahrazování zameškané výuky

Konzultace, zpracování zadaného tématu, písemná zpráva a prezentace na závěrečném semináři.

Doporučená literatura

Aggarwal, Ch.C. (ed.): Data Streams: Models and Algorithms. Advances in Database Systems. Springer, 2006, 358 p. ISBN 0387287590.
Bishop, CH. M.: Pattern Recognition and Machine Learning. Springer, 2006, 738 p. ISBN 978-0-387-31073-2.
Han, J., Kamber, M.: Data Mining: Concepts and Techniques. Second Edition. Elsevier Inc., 2006, 770 p. ISBN 1-55860-901-3.
Han, J., Kamber, M.: Data Mining: Concepts and Techniques. Third Edition. Elsevier Inc., 2012, 703 p. ISBN 978-0-12-381479-1.
Papers in journals and conference proceedings (including those in ACM Digital library, IEEE Digital library and other electronic sources).

Zařazení předmětu ve studijních plánech

  • Program VTI-DR-4 doktorský

    obor DVI4 , 0 ročník, zimní semestr, volitelný

  • Program VTI-DR-4 doktorský

    obor DVI4 , 0 ročník, zimní semestr, volitelný

Typ (způsob) výuky

 

Přednáška

39 hod., nepovinná

Vyučující / Lektor

Osnova

  1. Předzpracování dat. 
  2. Datové sklady.
  3. Asociační analýza.
  4. Klasifikace a predikce.
  5. Shluková analýza.
  6. Pokročilé techniky dolování znalostí z 'klasických' zdrojů dat.
  7. Dolování v proudech dat.
  8. Dolování v časových řadách a posloupnostech.
  9. Dolování v biologických datech.
  10. Dolování v grafových strukturách.
  11. Dolování v objektových, prostorových a multimediálních datech.
  12. Dolování v textu a na WWW.
  13. Dolování v datech pohybujících se objektů.

Projekt

13 hod., povinná

Vyučující / Lektor

Osnova

  1. Prostudování a zpracování vybraného tématu týkajícího se získávání znalostí z dat, zpravidla souvisejícího s tématem disertační práce studenta. Prezentace zpracovaného tématu na závěrečném semináři.

Konzultace v kombinovaném studiu

26 hod., nepovinná

Vyučující / Lektor