Detail předmětu

Speech processing

FEKT-NZPRAk. rok: 2010/2011

Kurz podává ucelený pohled na současné řešení podstatných problémů,které se v systémech řečové komunikace objevují. Kurz je určen studentům, kteří chtějí porozumět a osvojit základní i pokročilé techniky zpracování, syntézy a rozpoznávání mluvené řeči.

Jazyk výuky

angličtina

Počet kreditů

6

Výsledky učení předmětu

Student získá přehled o modelu vytváření řeči, analýze řečových signálů a o klasických příznacích řečového signálu. Studenti se dále seznámí s predikční analýzou, spektrogramem a homomorfní analýzou užitou pro techniky automatického rozpoznání povelů.
Studenti se seznámí mimo klasických metod se základními principy techniky ověřování mluvčího, s problematikou separace řeči od hlučného akustického pozadí a také s nejnovšími trendy z oblasti automatické rozpoznání řeči.

Prerekvizity

Jsou požadovány znalosti na úrovni bakalářského studia.

Plánované vzdělávací činnosti a výukové metody

Metody vyučování závisejí na způsobu výuky a jsou popsány článkem 7 Studijního a zkušebního řádu VUT.

Způsob a kritéria hodnocení

Podmínky pro úspěšné ukončení předmětu stanoví každoročně aktualizovaná vyhláška garanta předmětu.

Učební cíle

Cílem je poskytnout ucelený pohled na systémy řečové komunikace. Je určen studentům, kteří si chtějí osvojit základní a pokročilé techniky zpracování, syntézy a rozpoznávání mluvené řeči. Mimo základních principů ověřování mluvčího se studenti seznámí s problematikou separace řeči z hlučného pozadí a principy automatického rozpoznávání řeči.

Vymezení kontrolované výuky a způsob jejího provádění a formy nahrazování zameškané výuky

Vymezení kontrolované výuky a způsob jejího provádění stanoví každoročně aktualizovaná vyhláška garanta předmětu.

Základní literatura

DELLER, J.R., HANSEN, J.H.L., PROAKIS, J.G.: Discrete-Time Processing of Speech Signals. John Wiley, New York, 2000. ISBN 0-7803-5386-2
O'SHAUGNESSY, D., LI DENG: Speech Processing-A Dznamic Optimization-Oriented Approach. Marcel Dekker, New York, 2003. ISBN 0-8247-4040-8
QUATIERI, T.F.: Discrete-Time Speech Signal Processing-Principles and Practice. Prentice Hall, NJ 2002. ISBN 0-13-242942-X
UHLÍŘ, J. SOVKA, P.: Digital Signal Processing (Číslicové zpracování signálů), ČVUT, Praha, 1995. (In Czech)
VIRAG, N.: Single Channel Speech Enhancement Based on Masking Properties of the Human Auditory System, In IEEE Transactions on Speech and Audio Processing, Vol.7, No.2, March, 1999, pp.126-137.

Zařazení předmětu ve studijních plánech

  • Program EEKR-MN magisterský navazující

    obor MN-TIT , 2 ročník, letní semestr, volitelný oborový

Typ (způsob) výuky

 

Přednáška

39 hod., nepovinná

Vyučující / Lektor

Osnova

Charakter a informační obsah řečového signálu.
Fonetický popis českého jazyka.
Úvod do analýzy řečových signálů, model vytváření řeči.
Používané příznaky při analýze řečového signálu
Rozbor homomorfní analýzy (LPCC, LFCC a MFCC koeficienty).
Automatické rozpoznávání povelů.
Automatické rozpoznávání mluvčího.
Časová a kmitočtová syntéza řeči.
Techniky kódování řeči.
Řečový signál a rušení.
Jednokanálové filtrační techniky.
Vícekanálové filtrační techniky.
Technické prostředky pro realizaci.

Laboratorní cvičení

26 hod., povinná

Vyučující / Lektor

Osnova

Modifikace wav-souboru v prostředí Matlabu
Výpočet autokorelačních a LPC koeficientů
Analýza řečových signálů pomocí spektrogramu
Výpočet kepstrálních koeficientů (LPCC, LFCC a MFCC koeficienty)
Výpočet AMDF funkce, určování základního tónu
Výběr příznaků pro automatické rozpoznání povelů
Výběr příznaků pro automatické rozpoznání mluvčího
Určování hranic promluvy v zašumělých nahrávkách
Syntéza řeči v časové oblasti
Zadání individuálních projektů
Řešení a konzultace individuálních projektů
Řešení a konzultace individuálních projektů
Odevzdání individuálních projektů a udělení zápočtu