Course detail
Speech Processing
FEKT-MPC-ZREAcad. year: 2024/2025
The subject gives a comprehensive view of the solution of speech processing occurring in verbal communication. First, speech production, its perception, human auditory system and process of hearing are introduced. Then segmental and suprasegmental parameters that are frequently used in speech analysis are discussed. Furthermore, all important areas of speech processing are mentioned, especially speech analysis, pattern recognition, speech synthesis and coding. The method of pitch analysis, prosody modelling, emotion analysis, analysis of pathological voice, speech de-identification and speech watermarking are added. Attention is also paid to one-channel and multi-channel speech enhancement methods and noise cancellation. In the end, subjective and objective methods of assessing the quality and intelligibility of speech are introduced.
Language of instruction
Number of ECTS credits
Mode of study
Guarantor
Department
Entry knowledge
Rules for evaluation and completion of the course
The content and forms of instruction in the evaluated course are specified by a regulation issued by the lecturer responsible for the course and updated for every academic year.
Aims
On completion of the course, students are able to:
- describe vocal and auditory tract, and the way of speech production and its perception
- analyse speech using most common segmental and suprasegmental parameters
- apply cepstral and linear predictive analysis
- use machine learning in the field of speech processing (speech recognition, speaker recognition, speech pathology identification, emotion detection, etc.)
- design and implement text-to-speech system based on concatenation synthesis
- model vocal tract and perform speech coding
- use objective and subjective tests of speech quality and intelligibility assessment
- enhance speech using one- and multiple-channel methods
- design speech watermarking and de-identification system
- process/analyse speech signals using Matlab environment
Study aids
Prerequisites and corequisites
Basic literature
SMÉKAL, Z. Zpracování řeči. Brno: Vysoké učení technické v Brně, 2012. s. 1-171. ISBN: 978-80-214-4896-4. (CS)
Recommended reading
Elearning
Classification of course in study plans
Type of course unit
Lecture
Teacher / Lecturer
Syllabus
2. Analýza řečových signálů, segmentální a suprasegmentální parametry I, analýza základního tónu řeči
3. Analýza řečových signálů, segmentální a suprasegmentální parametry II
4. Analýza řečových signálů III, rozpoznávání vzoru (klasifikace založená na vzdálenostech)
5. Rozpoznávání vzoru (statistické klasifikátory)
6. Syntéza řeči a systémy typu TTS, modelování prozodie
7. Kódování řeči a její přenos
8. Objektivní a subjektivní metody posuzování kvality řeči a její srozumitelnosti
9. Jednokanálové a vícekanálové metody zvýrazňování řeči
10. Analýza emocí a její aplikace
11. Analýza neurodegenerativních onemocnění
12. Vodoznační řeči, de-identifikace řeči
Laboratory exercise
Teacher / Lecturer
Syllabus
1. Fonetická a akustická analýza prvků řeči. Předzpracování řečových signálů.
2. Suprasegmentální rysy
3. Lineární predikční analýza řeči
4. Kepstrální analýza řeči
5. Rozpoznávání vzoru
6. Klasifikátory. Redukce příznakového prostoru.
7. Systémy TTS
8. Registrace projektů a písemný test
9. Práce na projektech
10. Práce na projektech
11. Práce na projektech
12. Odevzdávání a obhajoba projektů
Elearning