Detail předmětu

Moderní metody zpracování řeči

FIT-MZDAk. rok: 2020/2021

Od jednoduchých systémů k rozpoznávání ke statistickému modelování. Skryté Markovovy modely (HMM). Rozpoznávání souvislé řeči s velkým slovníkem. Jazykové modely. Tvorba řeči. Slyšení řeči: čas a frekvence. Metody pro odvození příznaků pro rozpoznávání založené na datech. Řečové databáze. Buzení v kódování řeči, CELP. Identifikace mluvčího.

Okruhy otázek k SDZ

  1. Základní pojmy z rozpoznávání řeči: reprezentace signálu, struktura rozpoznávacího systému.
  2. Extrakce řečových příznaků: MFCC a PLP koeficienty, redukce dimenzionality, příznaky založené na neuronových sítích.
  3. Skryté Markovovy modely pro rozpoznávání, základní definice - stav, přechod, vysílací hustoty pravděpodobnosti, přechodové pravděpodobnosti, sekvence stavů, Baum-Welchova a Viterbiho věrohodnost.
  4. Rozpoznávání s HMM systémem a reprezentace výstupu - 1-best, N-best, lattices. Rozpoznávací systém založený na kompozici konečných stavových automatů.
  5. Trénování HMM systému - maximum likelihood a diskriminativní trénování.
  6. Jazykové modelování - n-gramy, principy aproximace neznámých pravděpodobností.
  7. Detekce klíčových slov - pojem proti-modelu a poměru věrohodností.
  8. Rozpoznávání jazyka - akustický a fototaktický přístup, omezení vlivu nerelevantní informace.
  9. Rozpoznávání mluvčího - základní přístupy, přístupy založené na zpracování nízko-rozměrných vektorů v reprezentativním pod-prostoru.
  10. Využití neuronových sítí v rozpoznávání řeči: tandemová a hybridní struktura, jazykové modely založené na NN, extrakce parametrů pomocí NN.


Jazyk výuky

čeština

Výsledky učení předmětu

Absolvování předmětu umožní posluchači realizovat jednoduché aplikace jako např. hlasové ovládání programu, ale především se zapojit do vývoje komplexních systémů pro rozpoznávání a kódování řeči využívajících moderní metody, a to v akademické i průmyslové sféře.

Prerekvizity

základní znalost číslicového zpracování signálů, absolvování základního kursu o zpracování řeči je výhodou.

Učební cíle

Zmíníme se o metodách v současnosti implementovaných v průmyslových aplikacích (jako GSM telefony nebo komerčně dostupné rozpoznávače), ale neopomeneme ani perspektivní metody existující zatím pouze ve výzkumných laboratořích. Zvláštní pozornost bude věnována postupům odvozeným na řečových datech a využití poznatků o tvorbě a slyšení řeči lidmi.

Vymezení kontrolované výuky a způsob jejího provádění a formy nahrazování zameškané výuky

výuka není kontrolována, předmět je hodnocen na základě zkoušky nebo závěrečné zprávy

Doporučená literatura

Ben Gold, Nelson Morgan, Dan Ellis: Speech and Audio Signal Processing: Processing and Perception of Speech and Music Hardcover, Wiley-Interscience; 2nd Edition, 2011.
Daniel Jurafsky, James H. Martin: SPEECH & LANGUAGE PROCESSING, 2nd edition,  Prentice Hall, 2008.
Dong Yu, Li Deng:  Automatic Speech Recognition: A Deep Learning Approach, Springer, 2014.
Dutoit, T.: An Introduction to Text-To-Speech Synthesis, Kluwer Academic Publishers, 1997
Fukunaga, K.: Introduction to Statistical Pattern Recognition, Academic Press, 1990
Gold, B., Morgan, N.: Speech and audio signal processing, John Wiley & Sons, 2000
Homayoon Beigi: Fundamentals of Speaker Recognition, Springer, 2011
Jelinek, F.: Statistical Methods for Speech Recognition, MIT Press, 1998
Moore, B.C.J., : An introduction to the psychology of hearing, Academic Press, 1989
Psutka, J.: Komunikace s s počítačem mluvenou řečí. Academia, Praha, 1995
Texts from http://www.fit.vutbr.cz/~cernocky/speech/
Vapnik, V. N.: Statistical Learning Theory, Wiley-Interscience, 1998

Zařazení předmětu ve studijních plánech

  • Program VTI-DR-4 doktorský

    obor DVI4 , 0 ročník, zimní semestr, volitelný

  • Program VTI-DR-4 doktorský

    obor DVI4 , 0 ročník, zimní semestr, volitelný

  • Program VTI-DR-4 doktorský

    obor DVI4 , 0 ročník, zimní semestr, volitelný

  • Program VTI-DR-4 doktorský

    obor DVI4 , 0 ročník, zimní semestr, volitelný

Typ (způsob) výuky

 

Přednáška

39 hod., nepovinná

Vyučující / Lektor

Osnova

  1. Základní pojmy: signálové vektory a matice parametrů, statistiky.
  2. Statistické modelování parametrů, modelování času stavovými sekvencemi.
  3. Skryté Markovovy modely (HMM), struktura, trénování.
  4. Rozpoznávání řeči pomocí HMM: Viterbiho algoritmus, předávání žetonů (token passing).
  5. ýslovnostní slovníky a jazykové modely.
  6. Tvorba řeči a odvozené parametry: LPC, log area ratios (LAR), line spectral pairs (LSP).
  7. Slyšení řeči a odvozené parametry - Mel-frekvenční cepstrální koeficienty, Perceptual linear prediction (PLP).
  8. Časové vlastnosti sluchu - RASTA filtrování.
  9. Trénování výpočtu příznaků na datech: lineární diskriminační analýza.
  10. Řečové databáze: standardy, obsah, mluvčí, anotace.
  11. Vokodéry a modelování jejich buzení, multipulsní a statistické modelování (GSM kódování).
  12. CELP kódování: dlouhodobý prediktor, kódové knihy. Kódování s velmi malým bitovým tokem.
  13. Současné metody identifikace a ověřování mluvčího.

Konzultace v kombinovaném studiu

26 hod., nepovinná

Vyučující / Lektor