Detail předmětu

Zpracování řeči a audia člověkem a počítačem

FIT-ASDAk. rok: 2024/2025

Třídenní intenzivní kurz

Interakce mezi lidmi a stroji může být podstatně zkvalitněna, použijeme-li ke komunikaci lidskou řeč. Znalost lidských schopností při zpracování řeči jako přirozeného komunikačního signálu může být velmi užitečná při návrhu technik pro jeho automatické zpracování.

Okruhy otázek k SDZ:

  1. Která z vlastností lidského slyšení se používá téměř u všech existujících technik rozpoznávání řeči?
  2. Popište strukturu lidského ucha.
  3. Jak lidsky sluch provádí frekvenční analýzu zvuku?
  4. Jak ucho sděluje informace z ucha lidskému mozku?
  5. Jaká je jedna z důležitých vlastností frekvenčního rozlišení lidského sluchu? Jak se liší od frekvenčního rozlišení Fourierovy analýzy?
  6. Co je maskováni lidského sluchu? K čemu může být dobré a proč?
  7. Co je simultánní maskováni a maskování vpřed v lidském sluchu?
  8. Na čem závisí hlasitost zvuku?
  9. Na kterých frekvencích slyšíme nejlépe?
  10. Popište některé techniky analýzy řeči, které využívají pokročilejší znalosti lidského sluchu.

Jazyk výuky

čeština

Pravidla hodnocení a ukončení předmětu

Ústní zkouška.

Učební cíle

Kurz vysvětlí koncepci signálu coby nosiče informace, základní principy zpracování kognitivních signálů a uvede posluchače do některých důležitých principů lidského zpracování řeči a obrazu.
Studenti se naučí interpretovat empirická data včetně technik pro jejich modelování a pro použití příslušných modelů při návrhu strojových rozhraní. Zvláštní důraz je kladen na soudobý aktivní výzkum v oblasti modelu lidského zpracování řeči.

Doporučená literatura

Ben Gold, Nelson Morgan, Dan Ellis: Speech and Audio Signal Processing: Processing and Perception of Speech and Music, Wiley-Interscience; 2nd Edition, 2011.
Brian Moore: An Introduction to the Psychology of Hearing, 6th Edition, BRILL 2013.
Simon Haykin: Neural Networks And Learning Machines, Pearson Education; Third edition, 2016.

Zařazení předmětu ve studijních plánech

  • Program DIT doktorský 0 ročník, zimní semestr, povinně volitelný
  • Program DIT doktorský 0 ročník, zimní semestr, povinně volitelný
  • Program DIT-EN doktorský 0 ročník, zimní semestr, povinně volitelný
  • Program DIT-EN doktorský 0 ročník, zimní semestr, povinně volitelný

  • Program VTI-DR-4 doktorský

    obor DVI4 , 0 ročník, zimní semestr, volitelný

  • Program VTI-DR-4 doktorský

    obor DVI4 , 0 ročník, zimní semestr, volitelný

  • Program VTI-DR-4 doktorský

    obor DVI4 , 0 ročník, zimní semestr, volitelný

Typ (způsob) výuky

 

Přednáška

39 hod., nepovinná

Vyučující / Lektor

Osnova

První den
  • Úvod do zpracování kognitivních signálů nesoucích informaci - lidská řeč. 
  • Základy teorie informace a klasifikace vzorů.
  • Základy tvorby řeči.
  • Standardní techniky pro zpracování řeči (krátkodobá spektrální analýza, filtrace pásmovými propustmi, Fourierova transformace a jí podobné metody zpracování signálu, kepstrum, lineární predikce).

Druhý den

  • Základy zpracování zvuku člověkem.
  • Vnímání výšky tónu a jeho hlasitosti.
  • Vlastnosti sluchu ve spektrální a časové oblasti.
  • Fenomén maskování jednoho zvuku druhým.
  • Důležité poznatky o  zpracování řeči člověkem.

 Třetí den

  • Úvod do technik zpracování používajících modely lidského sluchu.
  • Lineární diskriminační analýza a její použití při návrhu spektrální analýzy.
  • Metody zpracování signálu využívající časové oblasti.
  • Dynamické příznaky odvozené ze signálu.
  • Zpracování řeči využívající principů frekvenčních kanálů.
  • Rozpoznávání z časových obrazců a nelineární diskriminační techniky při zpracování řeči.

Konzultace v kombinovaném studiu

26 hod., nepovinná

Vyučující / Lektor