Detail předmětu

Vybrané problémy získávání znalostí z databází

FIT-ZZDAk. rok: 2017/2018

  1. Prohloubení znalostí základů získávání znalostí z databází - základy metod předzpracování (statistické veličiny používané při sumarizaci, přístupy k číštění, transformaci a redukci dat), základy datových skladů, základní metody a algoritmy dolování frekventovaných vzorů a asociačních pravidel (algoritmus Apriori, FP-strom, víceúrovňová asociační pravidla, dolování vícedimenzionálních asociačních pravidel z relačních databází), základní metody a algoritmy klasifikace (rozhodovací strom, bayesovská klasifikace, klasifikace využitím neuronových sítí, SVM) a predikce (lineární a nelineární regrese), základní metody a algoritmy shlukové analýzy (způsoby vyjadřování vzdálenosti dat, rozčleňovací metody, hierarchické metody, CF-strom, metody založené na hustotě, metody založené na mřížce a na modelu).
  2. Pokročilé techniky dolování dat - pokročilé techniky dolování znalostí z 'klasických' zdrojů dat, techniky dolování v proudech dat, časových řadách a posloupnostech, dolování v biologických datech, dolování v grafových strukturách, multirelační dolování, dolování v objektových, prostorových a multimediálních datech, dolování v textu, dolování na WWW.

Část 1 představuje základní témata.Dobrá znalost v této oblasti se očekává od všech absolventů předmětu. Tato část odpovídá kapitolám 1 až 12 v učebnici [1]. V části 2 se očekává od studentů přehled a porozumění základům (formulace problému, základní charakteristika přístupů k řešení) u všech témat. Hlubší znalosti se vyžaduje u tématu, které zpracovali a prezentovali na závěrečném semináři předmětu. Toto téma zpravidla nějak souvisí se zaměřením disertační práce. Tato část odpovídá kapitolám 8 až 10 v učebnici [2], ale zejména se předpokládá využití nejnovějších zdrojů informací dostupných ve sbornících z konferencí a v časopisech.

Okruhy otázek k SDZ:

  1. Předzpracování dat pro dolování.
  2. Dolování frekventovaných položek a asociačních pravidel.
  3. Klasifikace - rozhodovací stromy a bayesovská klasifikace.
  4. Klasifikace využitím neuronových sítí, SVM.
  5. Predikce.
  6. Shlukování - způsoby vyjadřování vzdálenosti, klasifikace metod a jejich charakteristika.
  7. Shlukování - rozčleňovací a hierarchické metody.
  8. Shlukování - metody založené na hustotě a mřížce.
  9. Dolování v proudech dat.
  10. Dolování na webu.

Jazyk výuky

čeština

Výsledky učení předmětu

Studenti získají dostatečně široký a přitom i dostatečně do hloubky jdoucí přehled v oblasti získávání znalostí z dat. Hlubší znalosti získají především v oblasti související s tématem disertační práce.

Prerekvizity

Studenti by měli mít základní znalosti ze statistiky, databázových systémů, teorie informace, strojového učení, neuronových sítí. Předpokládá se rovněž absolvování nějakého předmětu zaměřeného na základy získávání znalostí z databází v rámci magisterského studia.

Způsob a kritéria hodnocení

Hodnocení studia je založeno na bodovacím systému. Pro úspěšné absolvování předmětu je nutno dosáhnout 50 bodů.

Osnovy výuky

    Osnova přednášek:
    1. Předzpracování dat. 
    2. Datové sklady.
    3. Asociační analýza.
    4. Klasifikace a predikce.
    5. Shluková analýza.
    6. Pokročilé techniky dolování znalostí z 'klasických' zdrojů dat.
    7. Dolování v proudech dat.
    8. Dolování v časových řadách a posloupnostech.
    9. Dolování v biologických datech.
    10. Dolování v grafových strukturách.
    11. Dolování v objektových, prostorových a multimediálních datech.
    12. Dolování v textu a na WWW.
    13. Dolování v datech pohybujících se objektů.

    Osnova ostatní - projekty, práce:
    1. Prostudování a zpracování vybraného tématu týkajícího se získávání znalostí z dat, zpravidla souvisejícího s tématem disertační práce studenta. Prezentace zpracovaného tématu na závěrečném semináři.

Učební cíle

Prohloubit znalosti studentů v oblasti získávání znalostí z databází a jiných datových zdrojů se zaměřením na teoretické základy používaných technik, algoritmů a modelů.

Vymezení kontrolované výuky a způsob jejího provádění a formy nahrazování zameškané výuky

Konzultace, zpracování zadaného tématu, písemná zpráva a prezentace na závěrečném semináři.

Základní literatura

Han, J., Kamber, M.: Data Mining: Concepts and Techniques. Third Edition. Elsevier Inc., 2012, 703 p. ISBN 978-0-12-381479-1.Han, J., Kamber, M.: Data Mining: Concepts and Techniques. Second Edition. Elsevier Inc., 2006, 770 p. ISBN 1-55860-901-3.

Doporučená literatura

Bishop, CH. M.: Pattern Recognition and Machine Learning. Springer, 2006, 738 p. ISBN 978-0-387-31073-2. Aggarwal, Ch.C. (ed.): Data Streams: Models and Algorithms. Advances in Database Systems. Springer, 2006, 358 p. ISBN 0387287590. Příspěvky  v dostupných časopisech a sbornících konferencí (včetně dostupných v ACM Digital library, IEEE Digital library a jiných elektronických zdrojích).

Zařazení předmětu ve studijních plánech

  • Program VTI-DR-4 doktorský

    obor DVI4 , 0 ročník, zimní semestr, volitelný