Project detail

Nové směry ve výzkumu a využití hlasových technologií

Duration: 1.1.2005 — 31.12.2007

Funding resources

Grantová agentura České republiky - Standardní projekty

On the project

Projekt navazuje na předchozí úspěšný výzkum v oblasti zpracování řeči podporovaný GA ČR, zahájený komplexním projektem (1996 až 2001) a následovaný současným úkolem (2002-2004). Díky nim došlo k propojení všech předních českých pracovišť zabývajících se analýzou, rozpoznáváním a syntézou řeči a k rozvinutí spolupráce při řešení výzkumných úkolů, přesahujících zaměření jednotlivých dílčích týmů. Na této spolupráci je postaven i předkládaný projekt. Vychází z dosavadních výsledků v oblasti zpracování signálů, z existence vlastních rozsáhlých databází pro tvorbu akustických modelů použitelných v rozpoznávání i při syntéze, z propracovaných metod pravděpodobnostního modelování jazyka i ze zkušeností získaných návrhem funkčních prototypů. S ohledem na současné světové trendy bude hlavní pozornost zaměřena na rozvoj metod a algoritmů použitelných v distribuovaných a autonomních mobilních zařízeních, v rozpoznávacích systémech s velmi rozsáhlými slovníky, v hlasových syntezátorech pro interaktivní komunikační služby, v úlohách automatického přepisu zvukových nahrávek např. zpravodajství, rozhovorů, apod. Řešeno bude též multimodální zpracování řeči s podporou vizuální informace a rovněž otázky spojené s rozpoznáváním osob podle hlasu. Hlavní prioritou bude uplatnit všechny nové poznatky v prostředí češtiny s ohledem na její specifické potřeby.

Description in English
The proposed project follows up the previous research activities carried out in the speech processing area by the team that integrates all Czech research groups which are recently active in speech analysis, synthesis and recognition. It was established in 1996 to participate on an ambitious 6-year project supported by the GACR and later continued in another speech oriented project ending in 2002. Each of the groups involved has its own proficiency in a specific domain, which allows the consortium to work on integrated and complex tasks. In the previous years the team has created large databases of annotated speech recordings, which are now available both training and testing purposes in speech recognition domain as well as for speech synthesis. In addition, a set of powerful tools and platforms for developing own recognition and synthesis systems has been built together with several working prototypes that serve for evaluation and demonstration purposes. Based on this state and with respect to the recent trends in voice technologies, the project will focus on the investigation and implementation of algorithms that are applicable in distributed, embedded and mobile systems, in recognition engines working with very large vocabularies, in TTS modules for interactive communication and information services, in automatic transcription of broadcast news as well as in multimodal audio-visual interfaces. Primarily, the research will address specific needs of Czech.

Keywords
hlasové technologie;automatické rozpoznání řeči;multi-lingualní systémy;verifikace a rozpoznání řečníka;rozpoznání spojité řeči;audiovizuální zpracování řeči;rozsáhlé řečové databáze;dialogové systémy;optimalizace prozodie

Key words in English
voice technology;automatic speech recognition;multi-lingual systems;speaker recognition and verification;spontaneous speech recognition;accoustic-visual speech processing;automatic transcription;large speech databases;dialogue systems;prosody optimization

Mark

GA102/05/0278

Default language

Czech

People responsible

Černocký Jan, prof. Dr. Ing. - principal person responsible

Units

Department of Computer Graphics and Multimedia
- responsible department (1.1.1989 - not assigned)
Speech Data Mining Research Group BUT Speech@FIT
- internal (8.2.2005 - 31.12.2007)
Department of Computer Graphics and Multimedia
- co-beneficiary (8.2.2005 - 31.12.2007)

Results

MATĚJKA, P.; BURGET, L.; SCHWARZ, P.; ČERNOCKÝ, J.: System for automatic language identification (LID). https://www.fit.vut.cz/research/product/23/. URL: https://www.fit.vut.cz/research/product/23/. (zavedená výroba)
Detail

SCHWARZ, P.; MATĚJKA, P.; BURGET, L.; GLEMBEK, O.: VUT-SW-Search; Phoneme recognizer based on long temporal context. http://speech.fit.vutbr.cz/en/software/phoneme-recognizer-based-long-temporal-context. URL: http://speech.fit.vutbr.cz/en/software/phoneme-recognizer-based-long-temporal-context. (software)
Detail

CHALUPNÍČEK, K.; ČERNOCKÝ, J.; KAŠPÁREK, T.: Web-based system for semi-automatic checks of speech annotations. https://www.fit.vut.cz/research/product/27/. URL: https://www.fit.vut.cz/research/product/27/. (software)
Detail

BURGET, L.; GLEMBEK, O.; KARAFIÁT, M.; KONTÁR, S.; SCHWARZ, P.; ČERNOCKÝ, J.: STK Toolkit. https://www.fit.vut.cz/research/product/26/. URL: https://www.fit.vut.cz/research/product/26/. (software)
Detail

HAIN, T.; BURGET, L.; KARAFIÁT, M.: AMI Large vocabulary continuous speech recognizer. https://www.fit.vut.cz/research/product/25/. URL: https://www.fit.vut.cz/research/product/25/. (software)
Detail

SCHWARZ, P.; MATĚJKA, P.; ČERNOCKÝ, J.; SZŐKE, I.: System for on-line keyword spotting. https://www.fit.vut.cz/research/product/22/. URL: https://www.fit.vut.cz/research/product/22/. (software)
Detail

FAPŠO, M.; SZŐKE, I.; SCHWARZ, P.; ČERNOCKÝ, J.: Indexation and search engine for multimodal data. https://www.fit.vut.cz/research/product/24/. URL: https://www.fit.vut.cz/research/product/24/. (software)
Detail

MIKOLOV, T.; OPARIN, I.; GLEMBEK, O.; BURGET, L.; KARAFIÁT, M.; ČERNOCKÝ, J. Použití mluvených korpusů ve vývoji systému pro rozpoznávání českých přednášek. Praha: Univerzita Karlova, 2007. s. 1-5.
Detail

SZŐKE, I.; BURGET, L.; KARAFIÁT, M. Combination of Word and Phoneme Approach for Spoken Term Detection. Brno: 2007. p. 1 (1 s.).
Detail

SZŐKE, I.; FAPŠO, M.; KARAFIÁT, M.; BURGET, L.; GRÉZL, F.; SCHWARZ, P.; GLEMBEK, O.; MATĚJKA, P.; KOPECKÝ, J.; ČERNOCKÝ, J. Spoken Term Detection System Based on a Combination of LVCSR and Phonetic Search. Brno: 2007. p. 1 (1 s.).
Detail

GRÉZL, F.; KARAFIÁT, M.; ČERNOCKÝ, J. Neural network topologies and bottle neck features in speech recognition. Brno: 2007. p. 78-82.
Detail

FAPŠO, M.; SCHWARZ, P.; SZŐKE, I.; ČERNOCKÝ, J.; SMRŽ, P.; BURGET, L.; KARAFIÁT, M. Search Engine for Information Retrieval from Multi-modal Records. Edinburgh: 2005. p. 0-0.
Detail

GRÉZL, F. Spectral plane investigation for probabilistic features for ASR. Edinburgh: 2005. p. 82-86.
Detail

MATĚJKA, P.; SCHWARZ, P.; ČERNOCKÝ, J.; CHYTIL, P. Tuning Phonotactic Language Identificaion System. Brno: Faculty of Information Technology BUT, 2005. p. 1-5.
Detail

BRÜMMER, N.; BURGET, L.; ČERNOCKÝ, J.; GLEMBEK, O.; GRÉZL, F.; KARAFIÁT, M.; VAN LEEUWEN, D.; MATĚJKA, P.; SCHWARZ, P.; STRASHEIM, A. Fusion of heterogeneous speaker recognition systems in the STBU submission for the NIST speaker recognition evaluation 2006. IEEE Transactions on Audio, Speech, and Language Processing, 2007, vol. 15, no. 7, p. 2072-2084. ISSN: 1558-7916.
Detail

BURGET, L.; MATĚJKA, P.; SCHWARZ, P.; GLEMBEK, O.; ČERNOCKÝ, J. Analysis of feature extraction and channel compensation in GMM speaker recognition system. IEEE Transactions on Audio, Speech, and Language Processing, 2007, vol. 15, no. 7, p. 1979-1986. ISSN: 1558-7916.
Detail

SZŐKE, I.; SCHWARZ, P.; BURGET, L.; KARAFIÁT, M.; MATĚJKA, P.; ČERNOCKÝ, J. Phoneme Based Acoustics Keyword Spotting in Informal Continuous Speech. Lecture Notes in Computer Science, 2005, vol. 2005, no. 3658, p. 302-309. ISSN: 0302-9743.
Detail

HUBEIKA, V.; SZŐKE, I.; BURGET, L.; ČERNOCKÝ, J. Maximum Likelihood and Maximum Mutual Information Training in Gender and Age Recognition System. Proc. 10th International Conference on Text Speech and Dialogue (TSD 2007). Pilsen: Springer Verlag, 2007. p. 1-6. ISBN: 978-3-540-74627-0.
Detail

KARAFIÁT, M.; GRÉZL, F.; SCHWARZ, P.; BURGET, L.; ČERNOCKÝ, J. Robust heteroscedastic linear discriminant analysis and LCRC posterior features in meeting data recognition. Proc. 3nd Joint Workshop on Multimodal Interaction and Related Machine Learning Algorithms (MLMI 2006). Lecture Notes in Computer Science. Berlin: Springer Verlag, 2006. p. 275-284. ISBN: 3-540-69267-3.
Detail

GRÉZL, F.; ČERNOCKÝ, J. TRAP-based Techniques for Recognition of Noisy Speech. Proc. 10th International Conference on Text Speech and Dialogue (TSD 2007). LNCS. Berlin: Springer Verlag, 2007. p. 270-277. ISBN: 978-3-540-74627-0.
Detail