Detail předmětu

Zpracování řeči a audia člověkem a počítačem

FIT-ASDAk. rok: 2017/2018

Třídenní intenzivní kurz

Interakce mezi lidmi a stroji může být podstatně zkvalitněna, použijeme-li ke komunikaci lidskou řeč. Znalost lidských schopností při zpracování řeči jako přirozeného komunikačního signálu může být velmi užitečná při návrhu technik pro jeho automatické zpracování. Kurz vysvětlí koncepci signálu coby nosiče informace, základní principy zpracování kognitivních signálů a uvede posluchače do některých důležitých principů lidského zpracování řeči a obrazu. Studenti se naučí interpretovat empirická data včetně technik pro jejich modelování a pro použití příslušných modelů při návrhu strojových rozhraní. Zvláštní důraz je kladen na soudobý aktivní výzkum v oblasti modelu lidského zpracování řeči.

Okruhy otázek k SDZ
 1. Which property if human hearing is used in almost all existing techniques for speech recognition.
 2. Describe structure of human ear.
 3. How is frequency analysis of sound done in the ear?
 4. How is the information from ear communicated to human brain?
 5. What is the general tendency of frequency resolution of human hearing? How does it differ from frequency resolution of the Fourier analysis?
 6. What is auditory masking? What can good for and why?
 7. What is simultaneous and forward masking in human hearing?
 8. What does loudness of sound depend on?
 9. At which frequencies we hear the best?
10. Describe some speech analysis techniques that use more advanced knowledge of human hearing.

Jazyk výuky

čeština

Výsledky učení předmětu

Předmět nemá znalosti.

Prerekvizity

Nejsou žádné prerekvizity.

Způsob a kritéria hodnocení

Hodnocení studia je založeno na bodovacím systému. Pro úspěšné absolvování předmětu je nutno dosáhnout 50 bodů.

Osnovy výuky

    Osnova přednášek:
    První den
    • Úvod do zpracování kognitivních signálů nesoucích informaci - lidská řeč. 
    • Základy teorie informace a klasifikace vzorů.
    • Základy tvorby řeči.
    • Standardní techniky pro zpracování řeči (krátkodobá spektrální analýza, filtrace pásmovými propustmi, Fourierova transformace a jí podobné metody zpracování signálu, kepstrum, lineární predikce).

    Druhý den

    • Základy zpracování zvuku člověkem.
    • Vnímání výšky tónu a jeho hlasitosti.
    • Vlastnosti sluchu ve spektrální a časové oblasti.
    • Fenomén maskování jednoho zvuku druhým.
    • Důležité poznatky o  zpracování řeči člověkem.

     Třetí den

    • Úvod do technik zpracování používajících modely lidského sluchu.
    • Lineární diskriminační analýza a její použití při návrhu spektrální analýzy.
    • Metody zpracování signálu využívající časové oblasti.
    • Dynamické příznaky odvozené ze signálu.
    • Zpracování řeči využívající principů frekvenčních kanálů.
    • Rozpoznávání z časových obrazců a nelineární diskriminační techniky při zpracování řeči.

Učební cíle

Předmět nemá cíle.

Vymezení kontrolované výuky a způsob jejího provádění a formy nahrazování zameškané výuky

Výuka není kontrolována.

Základní literatura

Ben Gold and Nelson Morgan: Speech and Audio Signal Processing, Willey and Sons, 2000 Psutka a kol.: Hovoříme s počítačem česky, Akademia Praha 2006 Dodatečné materiály budou distribuovány dle potřeby během kurzu.

Zařazení předmětu ve studijních plánech

  • Program VTI-DR-4 doktorský

    obor DVI4 , 0 ročník, zimní semestr, volitelný

Typ (způsob) výuky

 

Přednáška

39 hod., nepovinná

Vyučující / Lektor

Osnova

První den
  • Úvod do zpracování kognitivních signálů nesoucích informaci - lidská řeč. 
  • Základy teorie informace a klasifikace vzorů.
  • Základy tvorby řeči.
  • Standardní techniky pro zpracování řeči (krátkodobá spektrální analýza, filtrace pásmovými propustmi, Fourierova transformace a jí podobné metody zpracování signálu, kepstrum, lineární predikce).

Druhý den

  • Základy zpracování zvuku člověkem.
  • Vnímání výšky tónu a jeho hlasitosti.
  • Vlastnosti sluchu ve spektrální a časové oblasti.
  • Fenomén maskování jednoho zvuku druhým.
  • Důležité poznatky o  zpracování řeči člověkem.

 Třetí den

  • Úvod do technik zpracování používajících modely lidského sluchu.
  • Lineární diskriminační analýza a její použití při návrhu spektrální analýzy.
  • Metody zpracování signálu využívající časové oblasti.
  • Dynamické příznaky odvozené ze signálu.
  • Zpracování řeči využívající principů frekvenčních kanálů.
  • Rozpoznávání z časových obrazců a nelineární diskriminační techniky při zpracování řeči.