Detail předmětu

Zpracování řečových signálů

FIT-ZREAk. rok: 2023/2024

Aplikace počítačového zpracování řeči, číslicové zpracování řečových signálů, tvorba a slyšení řeči, úvod do fonetiky, předzpracování a základní parametry, lineárně-prediktivní model, cepstrum, určování základního tónu hlasu, kódování - časová oblast a vokodéry, rozpoznávání - DTW a HMM, syntéza. Software a knihovny pro zpracování řeči.

Jazyk výuky

čeština

Počet kreditů

5

Pravidla hodnocení a ukončení předmětu

  • půlsemestrální test 14b
  • projekt 29b
  • presentace výsledků na poč. cvičeních 6b

Učební cíle

Seznámit studenty se základními charakteristikami řečového signálu v návaznosti na tvorbu a slyšení řeči lidmi. Popsat základní algoritmy analýzy řeči společné mnohým aplikacím. Podat přehled aplikací (rozpoznávání, syntéza, kódování) a informovat o praktických stránkách implementace řečových algoritmů.
Studenti se seznámí se základními charakteristikami řečového signálu v návaznosti na tvorbu a slyšení řeči lidmi. Pochopí základní algoritmy analýzy řeči společné mnohým aplikacím. Získají přehled o aplikacích (rozpoznávání, syntéza, kódování) a o praktických stránkách implementace řečových algoritmů. Budou schopni navrhnout jednoduchý systém pro zpracování řeči (detektor řečové aktivity, rozpoznávač několika izolovaných slov), včetně implementace do aplikačních programů.

Základní literatura

Gold, B., Morgan, N.: Speech and Audio Signal Processing, John Wiley & Sons, 2000, ISBN 0-471-35154-7 
Psutka, J.: Komunikace s počítačem mluvenou řečí. Academia, Praha, 1995, ISBN  80-200-0203-0 
www stránka předmětu https://www.fit.vutbr.cz/study/courses/ZRE/public/

Doporučená literatura

Gold, B., Morgan, N.: Speech and Audio Signal Processing, Wiley-Interscience; 2 edition.
Psutka, J., Müller, L., Matoušek, J., & Radová, V., Mluvíme s počítačem česky, Academia, 2006.
Rabiner, L. R., & Schafer, R. W. Theory and applications of digital speech processing, Pearson, 2011.

Yu, D., Deng, L., Automatic speech recognition, Springer, 2016.

Zařazení předmětu ve studijních plánech

  • Program IT-MGR-2 magisterský navazující

    obor MPV , 0 ročník, letní semestr, povinně volitelný
    obor MIN , 0 ročník, letní semestr, povinně volitelný
    obor MBI , 0 ročník, letní semestr, povinně volitelný
    obor MSK , 2 ročník, letní semestr, povinně volitelný
    obor MBS , 0 ročník, letní semestr, volitelný
    obor MIS , 0 ročník, letní semestr, volitelný
    obor MGM , 1 ročník, letní semestr, povinný
    obor MMM , 0 ročník, letní semestr, volitelný

  • Program MITAI magisterský navazující

    specializace NISY , 0 ročník, letní semestr, volitelný
    specializace NSPE , 0 ročník, letní semestr, povinný
    specializace NBIO , 0 ročník, letní semestr, volitelný
    specializace NSEN , 0 ročník, letní semestr, volitelný
    specializace NVIZ , 0 ročník, letní semestr, volitelný
    specializace NGRI , 0 ročník, letní semestr, volitelný
    specializace NADE , 0 ročník, letní semestr, volitelný
    specializace NISD , 0 ročník, letní semestr, volitelný
    specializace NMAT , 0 ročník, letní semestr, volitelný
    specializace NSEC , 0 ročník, letní semestr, volitelný
    specializace NISY do 2020/21 , 0 ročník, letní semestr, volitelný
    specializace NCPS , 0 ročník, letní semestr, volitelný
    specializace NHPC , 0 ročník, letní semestr, volitelný
    specializace NNET , 0 ročník, letní semestr, volitelný
    specializace NMAL , 0 ročník, letní semestr, volitelný
    specializace NVER , 0 ročník, letní semestr, volitelný
    specializace NIDE , 0 ročník, letní semestr, volitelný
    specializace NEMB , 0 ročník, letní semestr, volitelný
    specializace NEMB do 2021/22 , 0 ročník, letní semestr, volitelný

Typ (způsob) výuky

 

Přednáška

26 hod., nepovinná

Vyučující / Lektor

Osnova

  1. Úvod, aplikace zpracování řeči. 
  2. Číslicové zpracování řečových signálů.
  3. Tvorba a řeči a její signálový model.
  4. Předzpracování a základní parametry, cepstrum. 
  5. Lineárně-prediktivní model. 
  6. Určování základního tónu hlasu
  7. Kódování řeči - základy.
  8. Kódování řeči CELP. 
  9. Základy rozpoznávání řeči, DTW. 
  10. Skryté Markovovy modely HMM. 
  11. Systémy pro rozpoznávání řeči s velkým slovníkem (LVCSR). 
  12. Rozpoznávání mluvčího a jazyka. Využití neuronových sítí ve zpracování řeči. 
  13. Syntéza řeči z textu. 

Cvičení odborného základu

2 hod., povinná

Vyučující / Lektor

Osnova

  1. Paramatrizace, DTW, HMM.

Cvičení na počítači

12 hod., povinná

Vyučující / Lektor

Osnova

    V laboratořích (kromě poslední) je používán Matlab.
  1. Úvod. 
  2. Lineární predikce a vektorové kvantování. 
  3. Určování základního tónu a kódování řeči.
  4. Základy klasifikace. 
  5. Rozpoznávání - Dynamic time Warping (DTW).
  6. Rozpoznávání - skryté Markovovy modely (HTK).

Projekt

12 hod., povinná

Vyučující / Lektor