Detail předmětu

Zpracování řeči

FEKT-MZPRAk. rok: 2015/2016

Předmět podává ucelený pohled na různé současné oblasti zpracování řečových signálů, které se ve verbální komunikaci objevují. Nejprve je uveden způsob tvorby řeči a její vnímání a je popsáno sluchové ústrojí člověka a proces slyšení. Potom jsou probrány segmentální a suprasegmentální parametry, které se při analýze řeči nejvíce používají. Dále pak jsou zmíněny všechny důležité oblasti zpracování řeči: rozpoznávání vzoru a rozpoznávání izolovaných slov, syntéza a kódování řeči a jsou popsány systémy typu TTS. S tím jsou spojené metody analýzy základního tónu řeči, modelování prozodie, emoční analýza a vodoznační řeči. Dále je pozornost věnována jednokanálovým a vícekanálovým metodám zvýraznění řeči a potlačení šumu. Nakonec jsou popsány objektivní a subjektivní metody posuzování kvality a srozumitelnosti řeči.

Jazyk výuky

čeština

Počet kreditů

6

Výsledky učení předmětu

Student získá přehled o modelu vytváření řeči, o sluchových orgánech, o analýze řečových signálů a výpočet atributů řečového signálu. Studenti se dále seznámí s predikční analýzou, spektrogramem a homomorfní analýzou a vodoznačením řeči. Dále se dozví o subjektivních a objektivních metodách hodnocení kvality a srozumitelnosti řeči. Budou umět v Matlabu vytvořit systém pro rozpoznávání slov z omezeného slovníku.

Prerekvizity

Jsou požadovány znalosti na úrovni bakalářského studia. Dále je požadována znalost metod a algoritmů číslicového zpracování signálu. Navíc studenti musí umět programovat v prostředí Matlab.

Plánované vzdělávací činnosti a výukové metody

Všechny přednášky předmětu jsou k dispozici studentům na e-learningu a jsou vytvořeny v Power Pointu. Přednášky jsou doplňovány video a audio ukázkami zpracovávané řeči, které vznikly při práci na výzkumných projektech. V laboratoních cvičeních studenti si navrhují svůj reálný systém pro rozpoznávání jednoduchých slov. Na závět své znalosti musí prokázat při řešení zadaného projektu.

Způsob a kritéria hodnocení

Pro úspěšné ukončení předmětu je nutné absolvovat povinně počítačová cvičení a získat zápočet. Z počítačových laboratoří mohou získat 30 bodů ze 100. Zbytek 70 bodů mohou získat úspěšným složením závěrečné písemné zkoušky.

Osnovy výuky

1. Verbální komunikace mezi lidmi, hlasové ústrojí člověka, formanty, antiformanty, parametrický model řeči. Akustické vlastnosti samohlásek a souhlásek. Proces slyšení a sluchové pole, práh slyšení, hladina hlasitosti, výška zvuku. Maskování a zkreslení slyšení, kritická šířka pásma. Binaurální slyšení.
2. Oblasti zpracování řečového signálu. Přehled segmentálních parametrů a suprasegmentáních parametrů. Předzpracování řeči, segmentace, využití oken a preemfáze. Úzkopásmový a širokopásmový spektrogram, krátkodobá energie, Lineární predikční analýza, modelování hlasového traktu pomocí LPC koeficientů. Percepční lineární predikční koeficienty. Kepstrální analýza, komplexní a reálné kepstrum, melovské spektrální a kepstrální koeficienty.
3. Signál základního tónu řeči (ZT), základní kmitočet a základní perioda, jitter, shimmer. Přehled metod stanovení parametrů ZT řeči, porovnání metod určení ZT řeči.
4. Rozpoznávání vzoru, extrakce příznaků, redukce příznaků, klasifikace. Algoritmus borcení časové osy (DTW). Míra podobnosti, absolutní rozdíl, Eukleidova míra, Mahalanobisova míra, Itakurova míra. K-means algoritmus. Logopedické signály, učící systémy pro odstranění vad. Analýza biologických signálů pro rozpoznání a léčení různých nemocí, které jsou diagnostikovány na základě lidské promluvy (Parkinsonova choroba apod.).
5. Bayesovská klasifikace, neuronové sítě, smíšené Gaussovy modely, podpůrné vektory SVM, skryté Markovovy procesy. Slovní a větná prozodie, mikroprozodie. Parametry prosodie: průběh základního tónu, intenzita a tempo. Fujisakiho model, statistické a LPC modelování. Fonetické modelování podle pravidel (melodémy).
6. Zvukové ukázky, historie vývoje. Tvorba inventáře řečových jednotek. Syntéza řeči v časové oblasti a v kmitočtové oblasti. Modelování hlasového traktu (LP model, kepstrální model, harmonický model). Aproximace funkce exp(x). Syntéza TTS, předzpracování textu, fonetická transkripce, nastavení prozodie.
7. Kódování tvaru vlny. Zdrojové kódování. Přenosové systémy se změnou přenosové rychlosti WMR-WB a AMR-WB. Přenos řeči pomocí internetu VoIP.
8. Metoda spektrálního odečítání, metody RASTA, metoda mapování spektrogramu. Detektory řečové aktivity. Využití vlnkové transformace a bank číslicových filtrů. Adaptivní LMS filtry. Koktail-party efekt. Metoda tvarování přijímací charakteristiky. Metoda separace zdrojů naslepo, nedourčená, určená a přeurčená separace. Základní princip metody analýzy nezávislých komponent ICA a metody analýzy řídkých komponent SCA.
9. Systém pro rozpoznávání emocí z řeči. Výpočet a redukce příznaků. Klasifikace emocí. Systém pro rozpoznávání emocí ze statických obrazů a videa.
10. Hodnocení kvality, srozumitelnosti, přirozenosti a přijatelnosti řeči. Rozdělení objektivních a subjektivních metod. Nominální, pořadová, intervalová a poměrová škála. Větné, slovní, rýmové, logatomové testy, měření odstupu signálu od šumu. Databáze řečových nahrávek, jejich členění a typy. Metoda PESQ a PSQM.
11. Ochrana dat a databází, obecné schéma kodéru a dekodéru vodoznačení. Nevnímatelnost, robustnost a vytížení kodéru. Maskování v časové a ve spektrální oblasti.
12. Modulační spektrum, bispektrum, bikepstrum, metody hodnotící kvalitu řeči, příznaky odvozené z EMD, příznaky odvozené z DTWT atd.

Učební cíle

Cílem je poskytnout ucelený pohled na systémy řečové komunikace v informačních a telekomunikačních systémech. Je určen studentům, kteří si chtějí osvojit základní a pokročilé techniky analýzy, kódování, syntézy a vodoznačení řeči. Mimo základních principů ověřování mluvčího se studenti seznámí s problematikou jednokanálové a vícekanálové separace řeči z hlučného pozadí a principy automatického rozpoznávání řeči. Kromě toho studenti budou v počítačových laboratořích analyzovat řečový signál v reálném čase.

Vymezení kontrolované výuky a způsob jejího provádění a formy nahrazování zameškané výuky

Vymezení kontrolované výuky a způsob jejího provádění stanoví každoročně aktualizovaná vyhláška garanta předmětu.

Základní literatura

DELLER, J.R., HANSEN, J.H.L., PROAKIS, J.G.: Discrete-Time Processing of Speech Signals. John Wiley, New York, 2000. ISBN 0-7803-5386-2
O'SHAUGNESSY, D., LI DENG: Speech Processing-A Dynamic Optimization-Oriented Approach. Marcel Dekker, New York, 2003. ISBN 0-8247-4040-8
PSUTKA, J.: Komunikace s počítačem mluvenou řečí. ACADEMIA, Praha 1995. ISBN 80-200-0203-0
QUATIERI, T.F.: Discrete-Time Speech Signal Processing-Principles and Practice. Prentice Hall, NJ 2002. ISBN 0-13-242942-X
UHLÍŘ, J. SOVKA, P.: Digital Signal Processing (Číslicové zpracování signálů), ČVUT, Praha, 1995. (In Czech)

Zařazení předmětu ve studijních plánech

  • Program EEKR-M1 magisterský navazující

    obor M1-TIT , 2 ročník, letní semestr, volitelný oborový

  • Program EEKR-M magisterský navazující

    obor M-TIT , 2 ročník, letní semestr, volitelný oborový

  • Program AUDIO-P magisterský navazující

    obor P-AUD , 2 ročník, letní semestr, volitelný oborový

  • Program EEKR-CZV celoživotní vzdělávání (není studentem)

    obor ET-CZV , 1 ročník, letní semestr, volitelný oborový

Typ (způsob) výuky

 

Přednáška

26 hod., nepovinná

Vyučující / Lektor

Osnova

Charakter a informační obsah řečového signálu.
Fonetický popis českého jazyka.
Úvod do analýzy řečových signálů, model vytváření řeči.
Používané příznaky při analýze řečového signálu
Rozbor homomorfní analýzy (LPCC, LFCC a MFCC koeficienty).
Automatické rozpoznávání povelů.
Automatické rozpoznávání mluvčího.
Časová a kmitočtová syntéza řeči.
Techniky kódování řeči.
Řečový signál a rušení.
Jednokanálové filtrační techniky.
Vícekanálové filtrační techniky.
Technické prostředky pro realizaci.

Laboratorní cvičení

39 hod., povinná

Vyučující / Lektor

Osnova

Modifikace wav-souboru v prostředí Matlabu
Výpočet autokorelačních a LPC koeficientů
Analýza řečových signálů pomocí spektrogramu
Výpočet kepstrálních koeficientů (LPCC, LFCC a MFCC koeficienty)
Výpočet AMDF funkce, určování základního tónu
Výběr příznaků pro automatické rozpoznání povelů
Výběr příznaků pro automatické rozpoznání mluvčího
Určování hranic promluvy v zašumělých nahrávkách
Syntéza řeči v časové oblasti
Zadání individuálních projektů
Řešení a konzultace individuálních projektů
Řešení a konzultace individuálních projektů
Odevzdání individuálních projektů a udělení zápočtu