Detail předmětu
Zpracování řeči
FEKT-MZPRAk. rok: 2018/2019
Předmět podává ucelený pohled na různé současné oblasti zpracování řečových signálů, které se ve verbální komunikaci objevují. Nejprve je uveden způsob tvorby řeči a její vnímání a je popsáno sluchové ústrojí člověka a proces slyšení. Potom jsou probrány segmentální a suprasegmentální parametry, které se při analýze řeči nejvíce používají. Dále pak jsou zmíněny všechny důležité oblasti zpracování řeči: rozpoznávání vzoru a rozpoznávání izolovaných slov, syntéza a kódování řeči a jsou popsány systémy typu TTS. S tím jsou spojené metody analýzy základního tónu řeči, modelování prozodie, emoční analýza a vodoznační řeči. Dále je pozornost věnována jednokanálovým a vícekanálovým metodám zvýraznění řeči a potlačení šumu. Nakonec jsou popsány objektivní a subjektivní metody posuzování kvality a srozumitelnosti řeči.
Jazyk výuky
Počet kreditů
Garant předmětu
Zajišťuje ústav
Výsledky učení předmětu
Prerekvizity
Plánované vzdělávací činnosti a výukové metody
Způsob a kritéria hodnocení
Osnovy výuky
2. Oblasti zpracování řečového signálu. Přehled segmentálních parametrů a suprasegmentáních parametrů. Předzpracování řeči, segmentace, využití oken a preemfáze. Úzkopásmový a širokopásmový spektrogram, krátkodobá energie, Lineární predikční analýza, modelování hlasového traktu pomocí LPC koeficientů. Percepční lineární predikční koeficienty. Kepstrální analýza, komplexní a reálné kepstrum, melovské spektrální a kepstrální koeficienty.
3. Signál základního tónu řeči (ZT), základní kmitočet a základní perioda, jitter, shimmer. Přehled metod stanovení parametrů ZT řeči, porovnání metod určení ZT řeči.
4. Rozpoznávání vzoru, extrakce příznaků, redukce příznaků, klasifikace. Algoritmus borcení časové osy (DTW). Míra podobnosti, absolutní rozdíl, Eukleidova míra, Mahalanobisova míra, Itakurova míra. K-means algoritmus. Logopedické signály, učící systémy pro odstranění vad. Analýza biologických signálů pro rozpoznání a léčení různých nemocí, které jsou diagnostikovány na základě lidské promluvy (Parkinsonova choroba apod.).
5. Bayesovská klasifikace, neuronové sítě, smíšené Gaussovy modely, podpůrné vektory SVM, skryté Markovovy procesy. Slovní a větná prozodie, mikroprozodie. Parametry prosodie: průběh základního tónu, intenzita a tempo. Fujisakiho model, statistické a LPC modelování. Fonetické modelování podle pravidel (melodémy).
6. Zvukové ukázky, historie vývoje. Tvorba inventáře řečových jednotek. Syntéza řeči v časové oblasti a v kmitočtové oblasti. Modelování hlasového traktu (LP model, kepstrální model, harmonický model). Aproximace funkce exp(x). Syntéza TTS, předzpracování textu, fonetická transkripce, nastavení prozodie.
7. Kódování tvaru vlny. Zdrojové kódování. Přenosové systémy se změnou přenosové rychlosti WMR-WB a AMR-WB. Přenos řeči pomocí internetu VoIP.
8. Metoda spektrálního odečítání, metody RASTA, metoda mapování spektrogramu. Detektory řečové aktivity. Využití vlnkové transformace a bank číslicových filtrů. Adaptivní LMS filtry. Koktail-party efekt. Metoda tvarování přijímací charakteristiky. Metoda separace zdrojů naslepo, nedourčená, určená a přeurčená separace. Základní princip metody analýzy nezávislých komponent ICA a metody analýzy řídkých komponent SCA.
9. Systém pro rozpoznávání emocí z řeči. Výpočet a redukce příznaků. Klasifikace emocí. Systém pro rozpoznávání emocí ze statických obrazů a videa.
10. Hodnocení kvality, srozumitelnosti, přirozenosti a přijatelnosti řeči. Rozdělení objektivních a subjektivních metod. Nominální, pořadová, intervalová a poměrová škála. Větné, slovní, rýmové, logatomové testy, měření odstupu signálu od šumu. Databáze řečových nahrávek, jejich členění a typy. Metoda PESQ a PSQM.
11. Ochrana dat a databází, obecné schéma kodéru a dekodéru vodoznačení. Nevnímatelnost, robustnost a vytížení kodéru. Maskování v časové a ve spektrální oblasti.
12. Modulační spektrum, bispektrum, bikepstrum, metody hodnotící kvalitu řeči, příznaky odvozené z EMD, příznaky odvozené z DTWT atd.
Učební cíle
Vymezení kontrolované výuky a způsob jejího provádění a formy nahrazování zameškané výuky
Základní literatura
O'SHAUGNESSY, D., LI DENG: Speech Processing-A Dynamic Optimization-Oriented Approach. Marcel Dekker, New York, 2003. ISBN 0-8247-4040-8
PSUTKA, J.: Komunikace s počítačem mluvenou řečí. ACADEMIA, Praha 1995. ISBN 80-200-0203-0
QUATIERI, T.F.: Discrete-Time Speech Signal Processing-Principles and Practice. Prentice Hall, NJ 2002. ISBN 0-13-242942-X
UHLÍŘ, J. SOVKA, P.: Digital Signal Processing (Číslicové zpracování signálů), ČVUT, Praha, 1995. (In Czech)
Zařazení předmětu ve studijních plánech
Typ (způsob) výuky
Přednáška
Vyučující / Lektor
Osnova
Fonetický popis českého jazyka.
Úvod do analýzy řečových signálů, model vytváření řeči.
Používané příznaky při analýze řečového signálu
Rozbor homomorfní analýzy (LPCC, LFCC a MFCC koeficienty).
Automatické rozpoznávání povelů.
Automatické rozpoznávání mluvčího.
Časová a kmitočtová syntéza řeči.
Techniky kódování řeči.
Řečový signál a rušení.
Jednokanálové filtrační techniky.
Vícekanálové filtrační techniky.
Technické prostředky pro realizaci.
Laboratorní cvičení
Vyučující / Lektor
Osnova
Výpočet autokorelačních a LPC koeficientů
Analýza řečových signálů pomocí spektrogramu
Výpočet kepstrálních koeficientů (LPCC, LFCC a MFCC koeficienty)
Výpočet AMDF funkce, určování základního tónu
Výběr příznaků pro automatické rozpoznání povelů
Výběr příznaků pro automatické rozpoznání mluvčího
Určování hranic promluvy v zašumělých nahrávkách
Syntéza řeči v časové oblasti
Zadání individuálních projektů
Řešení a konzultace individuálních projektů
Řešení a konzultace individuálních projektů
Odevzdání individuálních projektů a udělení zápočtu