Project detail
Nové směry ve výzkumu a využití hlasových technologií
Duration: 1.1.2005 — 31.12.2007
Funding resources
Grantová agentura České republiky - Standardní projekty
On the project
Projekt navazuje na předchozí úspěšný výzkum v oblasti zpracování řeči podporovaný GA ČR, zahájený komplexním projektem (1996 až 2001) a následovaný současným úkolem (2002-2004). Díky nim došlo k propojení všech předních českých pracovišť zabývajících se analýzou, rozpoznáváním a syntézou řeči a k rozvinutí spolupráce při řešení výzkumných úkolů, přesahujících zaměření jednotlivých dílčích týmů. Na této spolupráci je postaven i předkládaný projekt. Vychází z dosavadních výsledků v oblasti zpracování signálů, z existence vlastních rozsáhlých databází pro tvorbu akustických modelů použitelných v rozpoznávání i při syntéze, z propracovaných metod pravděpodobnostního modelování jazyka i ze zkušeností získaných návrhem funkčních prototypů. S ohledem na současné světové trendy bude hlavní pozornost zaměřena na rozvoj metod a algoritmů použitelných v distribuovaných a autonomních mobilních zařízeních, v rozpoznávacích systémech s velmi rozsáhlými slovníky, v hlasových syntezátorech pro interaktivní komunikační služby, v úlohách automatického přepisu zvukových nahrávek např. zpravodajství, rozhovorů, apod. Řešeno bude též multimodální zpracování řeči s podporou vizuální informace a rovněž otázky spojené s rozpoznáváním osob podle hlasu. Hlavní prioritou bude uplatnit všechny nové poznatky v prostředí češtiny s ohledem na její specifické potřeby.
Description in English
The proposed project follows up the previous research activities carried out in
the speech processing area by the team that integrates all Czech research groups
which are recently active in speech analysis, synthesis and recognition. It was
established in 1996 to participate on an ambitious 6-year project supported by
the GACR and later continued in another speech oriented project ending in 2002.
Each of the groups involved has its own proficiency in a specific domain, which
allows the consortium to work on integrated and complex tasks. In the previous
years the team has created large databases of annotated speech recordings, which
are now available both training and testing purposes in speech recognition domain
as well as for speech synthesis. In addition, a set of powerful tools and
platforms for developing own recognition and synthesis systems has been built
together with several working prototypes that serve for evaluation and
demonstration purposes. Based on this state and with respect to the recent trends
in voice technologies, the project will focus on the investigation and
implementation of algorithms that are applicable in distributed, embedded and
mobile systems, in recognition engines working with very large vocabularies, in
TTS modules for interactive communication and information services, in automatic
transcription of broadcast news as well as in multimodal audio-visual interfaces.
Primarily, the research will address specific needs of Czech.
Keywords
hlasové technologie;automatické rozpoznání řeči;multi-lingualní
systémy;verifikace a rozpoznání řečníka;rozpoznání spojité řeči;audiovizuální
zpracování řeči;rozsáhlé řečové databáze;dialogové systémy;optimalizace prozodie
Key words in English
voice technology;automatic speech recognition;multi-lingual systems;speaker
recognition and verification;spontaneous speech recognition;accoustic-visual
speech processing;automatic transcription;large speech databases;dialogue
systems;prosody optimization
Mark
GA102/05/0278
Default language
Czech
People responsible
Černocký Jan, prof. Dr. Ing. - principal person responsible
Units
Department of Computer Graphics and Multimedia
- responsible department (1.1.1989 - not assigned)
Speech Data Mining Research Group BUT Speech@FIT
- internal (8.2.2005 - 31.12.2007)
Department of Computer Graphics and Multimedia
- co-beneficiary (8.2.2005 - 31.12.2007)
Results
MATĚJKA, P.; BURGET, L.; SCHWARZ, P.; ČERNOCKÝ, J.: System for automatic language identification (LID). https://www.fit.vut.cz/research/product/23/. URL: https://www.fit.vut.cz/research/product/23/. (zavedená výroba)
Detail
SCHWARZ, P.; MATĚJKA, P.; BURGET, L.; GLEMBEK, O.: VUT-SW-Search; Phoneme recognizer based on long temporal context. http://speech.fit.vutbr.cz/en/software/phoneme-recognizer-based-long-temporal-context. URL: http://speech.fit.vutbr.cz/en/software/phoneme-recognizer-based-long-temporal-context. (software)
Detail
CHALUPNÍČEK, K.; ČERNOCKÝ, J.; KAŠPÁREK, T.: Web-based system for semi-automatic checks of speech annotations. https://www.fit.vut.cz/research/product/27/. URL: https://www.fit.vut.cz/research/product/27/. (software)
Detail
BURGET, L.; GLEMBEK, O.; KARAFIÁT, M.; KONTÁR, S.; SCHWARZ, P.; ČERNOCKÝ, J.: STK Toolkit. https://www.fit.vut.cz/research/product/26/. URL: https://www.fit.vut.cz/research/product/26/. (software)
Detail
HAIN, T.; BURGET, L.; KARAFIÁT, M.: AMI Large vocabulary continuous speech recognizer. https://www.fit.vut.cz/research/product/25/. URL: https://www.fit.vut.cz/research/product/25/. (software)
Detail
SCHWARZ, P.; MATĚJKA, P.; ČERNOCKÝ, J.; SZŐKE, I.: System for on-line keyword spotting. https://www.fit.vut.cz/research/product/22/. URL: https://www.fit.vut.cz/research/product/22/. (software)
Detail
FAPŠO, M.; SZŐKE, I.; SCHWARZ, P.; ČERNOCKÝ, J.: Indexation and search engine for multimodal data. https://www.fit.vut.cz/research/product/24/. URL: https://www.fit.vut.cz/research/product/24/. (software)
Detail
MIKOLOV, T.; OPARIN, I.; GLEMBEK, O.; BURGET, L.; KARAFIÁT, M.; ČERNOCKÝ, J. Použití mluvených korpusů ve vývoji systému pro rozpoznávání českých přednášek. Praha: Univerzita Karlova, 2007. s. 1-5.
Detail
SZŐKE, I.; BURGET, L.; KARAFIÁT, M. Combination of Word and Phoneme Approach for Spoken Term Detection. Brno: 2007. p. 1 (1 s.).
Detail
SZŐKE, I.; FAPŠO, M.; KARAFIÁT, M.; BURGET, L.; GRÉZL, F.; SCHWARZ, P.; GLEMBEK, O.; MATĚJKA, P.; KOPECKÝ, J.; ČERNOCKÝ, J. Spoken Term Detection System Based on a Combination of LVCSR and Phonetic Search. Brno: 2007. p. 1 (1 s.).
Detail
GRÉZL, F.; KARAFIÁT, M.; ČERNOCKÝ, J. Neural network topologies and bottle neck features in speech recognition. Brno: 2007. p. 78-82.
Detail
FAPŠO, M.; SCHWARZ, P.; SZŐKE, I.; ČERNOCKÝ, J.; SMRŽ, P.; BURGET, L.; KARAFIÁT, M. Search Engine for Information Retrieval from Multi-modal Records. Edinburgh: 2005. p. 0-0.
Detail
GRÉZL, F. Spectral plane investigation for probabilistic features for ASR. Edinburgh: 2005. p. 82-86.
Detail
MATĚJKA, P.; SCHWARZ, P.; ČERNOCKÝ, J.; CHYTIL, P. Tuning Phonotactic Language Identificaion System. Brno: Faculty of Information Technology BUT, 2005. p. 1-5.
Detail
BRÜMMER, N.; BURGET, L.; ČERNOCKÝ, J.; GLEMBEK, O.; GRÉZL, F.; KARAFIÁT, M.; VAN LEEUWEN, D.; MATĚJKA, P.; SCHWARZ, P.; STRASHEIM, A. Fusion of heterogeneous speaker recognition systems in the STBU submission for the NIST speaker recognition evaluation 2006. IEEE Transactions on Audio, Speech, and Language Processing, 2007, vol. 15, no. 7, p. 2072-2084. ISSN: 1558-7916.
Detail
BURGET, L.; MATĚJKA, P.; SCHWARZ, P.; GLEMBEK, O.; ČERNOCKÝ, J. Analysis of feature extraction and channel compensation in GMM speaker recognition system. IEEE Transactions on Audio, Speech, and Language Processing, 2007, vol. 15, no. 7, p. 1979-1986. ISSN: 1558-7916.
Detail
SZŐKE, I.; SCHWARZ, P.; BURGET, L.; KARAFIÁT, M.; MATĚJKA, P.; ČERNOCKÝ, J. Phoneme Based Acoustics Keyword Spotting in Informal Continuous Speech. Lecture Notes in Computer Science, 2005, vol. 2005, no. 3658, p. 302-309. ISSN: 0302-9743.
Detail
HUBEIKA, V.; SZŐKE, I.; BURGET, L.; ČERNOCKÝ, J. Maximum Likelihood and Maximum Mutual Information Training in Gender and Age Recognition System. Proc. 10th International Conference on Text Speech and Dialogue (TSD 2007). Pilsen: Springer Verlag, 2007. p. 1-6. ISBN: 978-3-540-74627-0.
Detail
KARAFIÁT, M.; GRÉZL, F.; SCHWARZ, P.; BURGET, L.; ČERNOCKÝ, J. Robust heteroscedastic linear discriminant analysis and LCRC posterior features in meeting data recognition. Proc. 3nd Joint Workshop on Multimodal Interaction and Related Machine Learning Algorithms (MLMI 2006). Lecture Notes in Computer Science. Berlin: Springer Verlag, 2006. p. 275-284. ISBN: 3-540-69267-3.
Detail
GRÉZL, F.; ČERNOCKÝ, J. TRAP-based Techniques for Recognition of Noisy Speech. Proc. 10th International Conference on Text Speech and Dialogue (TSD 2007). LNCS. Berlin: Springer Verlag, 2007. p. 270-277. ISBN: 978-3-540-74627-0.
Detail
Responsibility: Černocký Jan, prof. Dr. Ing.