Detail předmětu
Zpracování řeči a audia člověkem a počítačem
FIT-ASDAk. rok: 2024/2025
Třídenní intenzivní kurz
Interakce mezi lidmi a stroji může být podstatně zkvalitněna, použijeme-li ke komunikaci lidskou řeč. Znalost lidských schopností při zpracování řeči jako přirozeného komunikačního signálu může být velmi užitečná při návrhu technik pro jeho automatické zpracování.
Okruhy otázek k SDZ:
- Která z vlastností lidského slyšení se používá téměř u všech existujících technik rozpoznávání řeči?
- Popište strukturu lidského ucha.
- Jak lidsky sluch provádí frekvenční analýzu zvuku?
- Jak ucho sděluje informace z ucha lidskému mozku?
- Jaká je jedna z důležitých vlastností frekvenčního rozlišení lidského sluchu? Jak se liší od frekvenčního rozlišení Fourierovy analýzy?
- Co je maskováni lidského sluchu? K čemu může být dobré a proč?
- Co je simultánní maskováni a maskování vpřed v lidském sluchu?
- Na čem závisí hlasitost zvuku?
- Na kterých frekvencích slyšíme nejlépe?
- Popište některé techniky analýzy řeči, které využívají pokročilejší znalosti lidského sluchu.
Jazyk výuky
čeština
Garant předmětu
Zajišťuje ústav
Pravidla hodnocení a ukončení předmětu
Ústní zkouška.
Učební cíle
Kurz vysvětlí koncepci signálu coby nosiče informace, základní principy zpracování kognitivních signálů a uvede posluchače do některých důležitých principů lidského zpracování řeči a obrazu.
Studenti se naučí interpretovat empirická data včetně technik pro jejich modelování a pro použití příslušných modelů při návrhu strojových rozhraní. Zvláštní důraz je kladen na soudobý aktivní výzkum v oblasti modelu lidského zpracování řeči.
Studenti se naučí interpretovat empirická data včetně technik pro jejich modelování a pro použití příslušných modelů při návrhu strojových rozhraní. Zvláštní důraz je kladen na soudobý aktivní výzkum v oblasti modelu lidského zpracování řeči.
Doporučená literatura
Ben Gold, Nelson Morgan, Dan Ellis: Speech and Audio Signal Processing: Processing and Perception of Speech and Music, Wiley-Interscience; 2nd Edition, 2011.
Brian Moore: An Introduction to the Psychology of Hearing, 6th Edition, BRILL 2013.
Simon Haykin: Neural Networks And Learning Machines, Pearson Education; Third edition, 2016.
Brian Moore: An Introduction to the Psychology of Hearing, 6th Edition, BRILL 2013.
Simon Haykin: Neural Networks And Learning Machines, Pearson Education; Third edition, 2016.
Zařazení předmětu ve studijních plánech
- Program DIT doktorský 0 ročník, zimní semestr, povinně volitelný
- Program DIT doktorský 0 ročník, zimní semestr, povinně volitelný
- Program DIT-EN doktorský 0 ročník, zimní semestr, povinně volitelný
- Program DIT-EN doktorský 0 ročník, zimní semestr, povinně volitelný
- Program VTI-DR-4 doktorský
obor DVI4 , 0 ročník, zimní semestr, volitelný
- Program VTI-DR-4 doktorský
obor DVI4 , 0 ročník, zimní semestr, volitelný
- Program VTI-DR-4 doktorský
obor DVI4 , 0 ročník, zimní semestr, volitelný
Typ (způsob) výuky
Přednáška
39 hod., nepovinná
Vyučující / Lektor
Osnova
První den
- Úvod do zpracování kognitivních signálů nesoucích informaci - lidská řeč.
- Základy teorie informace a klasifikace vzorů.
- Základy tvorby řeči.
- Standardní techniky pro zpracování řeči (krátkodobá spektrální analýza, filtrace pásmovými propustmi, Fourierova transformace a jí podobné metody zpracování signálu, kepstrum, lineární predikce).
Druhý den
- Základy zpracování zvuku člověkem.
- Vnímání výšky tónu a jeho hlasitosti.
- Vlastnosti sluchu ve spektrální a časové oblasti.
- Fenomén maskování jednoho zvuku druhým.
- Důležité poznatky o zpracování řeči člověkem.
Třetí den
- Úvod do technik zpracování používajících modely lidského sluchu.
- Lineární diskriminační analýza a její použití při návrhu spektrální analýzy.
- Metody zpracování signálu využívající časové oblasti.
- Dynamické příznaky odvozené ze signálu.
- Zpracování řeči využívající principů frekvenčních kanálů.
- Rozpoznávání z časových obrazců a nelineární diskriminační techniky při zpracování řeči.
Konzultace v kombinovaném studiu
26 hod., nepovinná
Vyučující / Lektor