Detail předmětu
Moderní metody zpracování řeči
FIT-MZDAk. rok: 2021/2022
Od jednoduchých systémů k rozpoznávání ke statistickému modelování. Skryté Markovovy modely (HMM). Rozpoznávání souvislé řeči s velkým slovníkem. Jazykové modely. Tvorba řeči. Slyšení řeči: čas a frekvence. Metody pro odvození příznaků pro rozpoznávání založené na datech. Řečové databáze. Buzení v kódování řeči, CELP. Identifikace mluvčího.
Okruhy otázek k SDZ
- Základní pojmy z rozpoznávání řeči: reprezentace signálu, struktura rozpoznávacího systému.
- Extrakce řečových příznaků: MFCC a PLP koeficienty, redukce dimenzionality, příznaky založené na neuronových sítích.
- Skryté Markovovy modely pro rozpoznávání, základní definice - stav, přechod, vysílací hustoty pravděpodobnosti, přechodové pravděpodobnosti, sekvence stavů, Baum-Welchova a Viterbiho věrohodnost.
- Rozpoznávání s HMM systémem a reprezentace výstupu - 1-best, N-best, lattices. Rozpoznávací systém založený na kompozici konečných stavových automatů.
- Trénování HMM systému - maximum likelihood a diskriminativní trénování.
- Jazykové modelování - n-gramy, principy aproximace neznámých pravděpodobností.
- Detekce klíčových slov - pojem proti-modelu a poměru věrohodností.
- Rozpoznávání jazyka - akustický a fototaktický přístup, omezení vlivu nerelevantní informace.
- Rozpoznávání mluvčího - základní přístupy, přístupy založené na zpracování nízko-rozměrných vektorů v reprezentativním pod-prostoru.
- Využití neuronových sítí v rozpoznávání řeči: tandemová a hybridní struktura, jazykové modely založené na NN, extrakce parametrů pomocí NN.
Jazyk výuky
Garant předmětu
Zajišťuje ústav
Výsledky učení předmětu
Prerekvizity
Učební cíle
Vymezení kontrolované výuky a způsob jejího provádění a formy nahrazování zameškané výuky
Doporučená literatura
Fukunaga, K.: Introduction to Statistical Pattern Recognition, Academic Press, 1990
Gold, B., Morgan, N.: Speech and audio signal processing, John Wiley & Sons, 2000
Jelinek, F.: Statistical Methods for Speech Recognition, MIT Press, 1998
Moore, B.C.J., : An introduction to the psychology of hearing, Academic Press, 1989
Psutka, J.: Komunikace s s počítačem mluvenou řečí. Academia, Praha, 1995
Texty z http://www.fit.vutbr.cz/~cernocky/speech/
Vapnik, V. N.: Statistical Learning Theory, Wiley-Interscience, 1998
Zařazení předmětu ve studijních plánech
- Program DIT doktorský 0 ročník, zimní semestr, povinně volitelný
- Program DIT doktorský 0 ročník, zimní semestr, povinně volitelný
- Program VTI-DR-4 doktorský
obor DVI4 , 0 ročník, zimní semestr, volitelný
- Program VTI-DR-4 doktorský
obor DVI4 , 0 ročník, zimní semestr, volitelný
- Program DIT-EN doktorský 0 ročník, zimní semestr, povinně volitelný
- Program DIT-EN doktorský 0 ročník, zimní semestr, povinně volitelný
- Program VTI-DR-4 doktorský
obor DVI4 , 0 ročník, zimní semestr, volitelný
- Program VTI-DR-4 doktorský
obor DVI4 , 0 ročník, zimní semestr, volitelný
Typ (způsob) výuky
Přednáška
Vyučující / Lektor
Osnova
- Základní pojmy: signálové vektory a matice parametrů, statistiky.
- Statistické modelování parametrů, modelování času stavovými sekvencemi.
- Skryté Markovovy modely (HMM), struktura, trénování.
- Rozpoznávání řeči pomocí HMM: Viterbiho algoritmus, předávání žetonů (token passing).
- ýslovnostní slovníky a jazykové modely.
- Tvorba řeči a odvozené parametry: LPC, log area ratios (LAR), line spectral pairs (LSP).
- Slyšení řeči a odvozené parametry - Mel-frekvenční cepstrální koeficienty, Perceptual linear prediction (PLP).
- Časové vlastnosti sluchu - RASTA filtrování.
- Trénování výpočtu příznaků na datech: lineární diskriminační analýza.
- Řečové databáze: standardy, obsah, mluvčí, anotace.
- Vokodéry a modelování jejich buzení, multipulsní a statistické modelování (GSM kódování).
- CELP kódování: dlouhodobý prediktor, kódové knihy. Kódování s velmi malým bitovým tokem.
- Současné metody identifikace a ověřování mluvčího.