Detail projektu
Technologie zpracování řeči pro efektivní komunikaci člověk-počítač
Období řešení: 1.1.2011 — 31.12.2014
Zdroje financování
Technologická agentura ČR - Program aplikovaného výzkumu a experimentálního vývoje ALFA
O projektu
Cílem projektu je vyvinout pokročilé techniky pro rozpoznávání řeči a nasadit je v praktických aplikacích: vyhledávání v elektronickém slovníku na mobilních zařízeních, diktování překladů, v bezpečnosti a obraně, v dialogových systémech, systémech péče o zákazníky (CRM, helpdesk apod.) a v audiovizuálním přístupu k výukovým materiálům.
Popis anglicky
Project aims at development of advanced techniques in speech recognition and
their deployment in the functional applications: search in electronic
dictionaries on mobile devices, dictating translations, in defense and security,
in dialogue systems, in client-care systems (CRM, helpdesk etc.) and in
audio-visual access to teaching materials.
Klíčová slova
rozpoznávání řeči, elektronické slovníky, obrana a bezpečnost, mobilní zařízení,
dialogové systémy, CRM, eLearning
Klíčová slova anglicky
speech recognition, electronic dictionaries, defense and security, mobile
devices, dialogue systems, CRM, eLearning
Označení
TA01011328
Originální jazyk
čeština
Řešitelé
Černocký Jan, prof. Dr. Ing. - hlavní řešitel
Karafiát Martin, Ing., Ph.D. - spoluřešitel
Ondel Lucas Antoine Francois, Mgr., Ph.D. - spoluřešitel
Útvary
Ústav počítačové grafiky a multimédií
- odpovědné pracoviště (1.2.2011 - nezadáno)
Výzkumná skupina dolování dat z řeči BUT Speech@FIT
- interní (1.2.2011 - 31.12.2014)
Ústav počítačové grafiky a multimédií
- příjemce (1.2.2011 - 31.12.2014)
Výsledky
POVEY, D.; GHOSHAL, A.; BOULIANNE, G.; BURGET, L.; GLEMBEK, O.; GOEL, N.; HANNEMANN, M.; MOTLÍČEK, P.; QIAN, Y.; SCHWARZ, P.; SILOVSKÝ, J.; STEMMER, G.; VESELÝ, K. The Kaldi Speech Recognition Toolkit. Proceedings of ASRU 2011. Hilton Waikoloa Village Resort, Hawaii: IEEE Signal Processing Society, 2011. p. 1-4. ISBN: 978-1-4673-0366-8.
Detail
ŽIŽKA, J.; SZŐKE, I.; FAPŠO, M.: ProhlizecPrednasek; Audiovizuální prohlížeč přednášek. Fakulta informačních technologií, Vysoké učení technické v Brně. URL: https://www.fit.vut.cz/research/product/431/. (prototyp)
Detail
ONDEL YANG, L.; ANGUERA, X.; LUQUE, J. MASK+: Data-driven regions selection for acoustic fingerprinting. In Proceedings of 2015 IEEE International Conference on Acoustics, Speech and Signal Processing. South Brisbane, Queensland: IEEE Signal Processing Society, 2015. p. 335-339. ISBN: 978-1-4673-6997-8.
Detail
KARAFIÁT, M.; GRÉZL, F.; VESELÝ, K.; HANNEMANN, M.; SZŐKE, I.; ČERNOCKÝ, J. BUT 2014 Babel System: Analysis of adaptation in NN based systems. In Proceedings of Interspeech 2014. Singapore: International Speech Communication Association, 2014. p. 3002-3006. ISBN: 978-1-63439-435-2.
Detail
MARTÍNEZ GONZÁLEZ, D.; BURGET, L.; STAFYLAKIS, T.; LEI, Y.; KENNY, P.; LLEIDA, E. Unscented Transform For Ivector-based Noisy Speaker Recognition. In Proceedings of ICASSP 2014. Florencie: IEEE Signal Processing Society, 2014. p. 4070-4074. ISBN: 978-1-4799-2892-7.
Detail
GLEMBEK, O.; MA, J.; MATĚJKA, P.; ZHANG, B.; PLCHOT, O.; BURGET, L.; MATSOUKAS, S. Domain adaptation via within-class covariance correction in I-vector based speaker recognition systems. In Proceedings of ICASSP 2014. Florencie: IEEE Signal Processing Society, 2014. p. 4060-4064. ISBN: 978-1-4799-2892-7.
Detail
KARAFIÁT, M.; GRÉZL, F.; HANNEMANN, M.; ČERNOCKÝ, J. BUT Neural Network Features for Spontaneous Vietnamese in BABEL. In Proceedings of ICASSP 2014. Florencie: IEEE Signal Processing Society, 2014. p. 5659-5663. ISBN: 978-1-4799-2892-7.
Detail
KARAFIÁT, M.; VESELÝ, K.; SZŐKE, I.; BURGET, L.; GRÉZL, F.; HANNEMANN, M.; ČERNOCKÝ, J. BUT ASR System for BABEL Surprise Evaluation 2014. In Proceedings of 2014 Spoken Language Technology Workshop. South Lake Tahoe, Nevada: IEEE Signal Processing Society, 2014. p. 501-506. ISBN: 978-1-4799-7129-9.
Detail
RATH, S.; POVEY, D.; VESELÝ, K.; ČERNOCKÝ, J. Improved Feature Processing for Deep Neural Networks. Proceedings of Interspeech 2013. Proceedings of the 14th Annual Conference of the International Speech Communication Association (Interspeech 2013). Lyon: International Speech Communication Association, 2013. p. 109-113. ISBN: 978-1-62993-443-3. ISSN: 2308-457X.
Detail
RATH, S.; BURGET, L.; KARAFIÁT, M.; GLEMBEK, O.; ČERNOCKÝ, J. A Region-specific Feature-space Transformation for Speaker Adaptation and Singularity Analysis of Jacobian Matrix. Proceedings of Interspeeech 2013. Proceedings of the 14th Annual Conference of the International Speech Communication Association (Interspeech 2013). Lyon: International Speech Communication Association, 2013. p. 1228-1232. ISBN: 978-1-62993-443-3. ISSN: 2308-457X.
Detail
LEI, Y.; BURGET, L.; SCHEFFER, N. A Noise Robust I-Vector Extractor Using Vector Taylor Series For Speaker Recognition. Proceedings of ICASSP 2013. Vancouver: IEEE Signal Processing Society, 2013. p. 6788-6791. ISBN: 978-1-4799-0355-9.
Detail
EGOROVA, E.; VESELÝ, K.; KARAFIÁT, M.; JANDA, M.; ČERNOCKÝ, J. Manual and Semi-Automatic Approaches to Building a Multilingual Phoneme Set. In Proceedings of ICASSP 2013. Vancouver: IEEE Signal Processing Society, 2013. p. 7324-7328. ISBN: 978-1-4799-0355-9.
Detail
PLCHOT, O.; MATSOUKAS, S.; MATĚJKA, P.; DEHAK, N.; MA, J.; CUMANI, S.; GLEMBEK, O.; HEŘMANSKÝ, H.; MESGARANI, N.; SOUFIFAR, M.; THOMAS, S.; ZHANG, B.; ZHOU, X. Developing A Speaker Identification System For The DARPA RATS Project. Proceedings of ICASSP 2013. Vancouver: IEEE Signal Processing Society, 2013. p. 6768-6772. ISBN: 978-1-4799-0355-9.
Detail
POVEY, D.; GHOSHAL, A.; BOULIANNE, G.; BURGET, L.; GLEMBEK, O.; GOEL, N.; HANNEMANN, M.; MOTLÍČEK, P.; QIAN, Y.; SCHWARZ, P.; SILOVSKÝ, J.; STEMMER, G.; VESELÝ, K.: KALDI; KALDI speech recognition toolkit. http://kaldi.sourceforge.net/. URL: http://kaldi.sourceforge.net/. (software)
Detail
SZŐKE, I.; FAPŠO, M.; VESELÝ, K. BUT2012 přístup pro Spoken Web Search úkol na MediaEval2012. Working Notes Proceedings of the MediaEval 2012 Workshop. CEUR Workshop Proceedings. Pisa: CEUR-WS.org, 2012. s. 1-2. ISSN: 1613-0073.
Detail
SZŐKE, I.; FAPŠO, M.; ŽIŽKA, J.; BERAN, V.; ČERNOCKÝ, J. Efektivní přístup ke znalostem v audio-vizuálních záznamech. Proceedings of the Annual Database Conference. Praha: Technická univerzita v Košiciach, 2012. s. 57-74. ISBN: 978-80-553-1049-7.
Detail
DEORAS, A.; MIKOLOV, T.; KOMBRINK, S.; CHURCH, K. Approximate inference: A sampling based modeling technique to capture complex dependencies in a language model. Speech Communication, 2012, vol. 2012, no. 8, p. 1-16. ISSN: 0167-6393.
Detail
VESELÝ, K.; KARAFIÁT, M.; GRÉZL, F.; JANDA, M.; EGOROVA, E. The Language-Independent Bottleneck Features. Proceedings of IEEE 2012 Workshop on Spoken Language Technology. Miami: IEEE Signal Processing Society, 2012. p. 336-341. ISBN: 978-1-4673-5124-9.
Detail
RATH, S.; KARAFIÁT, M.; GLEMBEK, O.; ČERNOCKÝ, J. A factorized representation of FMLLR transform based on QR-decomposition. Proceedings of Interspeech 2012. Proceedings of Interspeech. Portland, Oregon: International Speech Communication Association, 2012. p. 1-4. ISBN: 978-1-62276-759-5. ISSN: 1990-9772.
Detail
MIKOLOV, T.; KOMBRINK, S.; DEORAS, A.; BURGET, L.; ČERNOCKÝ, J. RNNLM - Recurrent Neural Network Language Modeling Toolkit. Proceedings of ASRU 2011. Hilton Waikoloa Village, Big Island, Hawaii: IEEE Signal Processing Society, 2011. p. 1-4. ISBN: 978-1-4673-0366-8.
Detail
Odkaz
Odpovědnost: Černocký Jan, prof. Dr. Ing.