Detail projektu
DARPA Robust Automatic Transcription of Speech (RATS) - RATS Patrol I
Období řešení: 23.9.2010 — 30.6.2014
Zdroje financování
Neveřejný sektor - Přímé kontrakty - smluvní výzkum, neveřejné zdroje
O projektu
Existing speech signal processing technologies are inadequate for most noisy or degraded speech signals that are important to military intelligence. The Robust Automatic Transcription of Speech (RATS) program is creating algorithms and software for performing the following tasks on potentially speech-containing signals received over communication channels that are extremely noisy and/or highly distorted: Speech Activity Detection, Language Identification, Speaker Identification and Key Word Spotting.
Popis česky
Existující technologie zpracování řečového signálu jsou nedostačující pro většinu
hlučných nebo degradovaných řečových signálů, které jsou důležité pro vojenskou
špionáž. Program robustní automatické transkripce řeči vytváří algoritmy
a software, které provedou následující úkony na signálech potenciálně
obsahujících řeč, které byly získány prostřednictvím komunikačních kanálů, jež
jsou extrémně hlučné a/nebo vysoce deformované: detekce řečové aktivity,
rozpoznávání jazyka, rozpoznávání mluvčího a detekce klíčových slov.
Klíčová slova
speech recognition, speaker recognition, language recognition, keyword spotting,
robustness, noise, transmission channels
Klíčová slova česky
rozpoznávání řeči, rozpoznávání mluvčího, rozpoznávání jazyka, detekce klíčových
slov, robustnost, šum, přenosové kanály
Originální jazyk
angličtina
Řešitelé
Matějka Pavel, Ing., Ph.D. - hlavní řešitel
Útvary
Ústav počítačové grafiky a multimédií
- odpovědné pracoviště (10.5.2011 - nezadáno)
Výzkumná skupina dolování dat z řeči BUT Speech@FIT
- interní (10.5.2011 - 30.6.2014)
Raytheon BBN Technologies Corp
- objednatel (10.5.2011 - 30.6.2014)
Ústav počítačové grafiky a multimédií
- příjemce (10.5.2011 - 30.6.2014)
Výsledky
BAHARI, M.; DEHAK, N.; VAN HAMME, H.; BURGET, L.; ALI, A.; GLASS, J. Non-Negative Factor Analysis of Gaussian Mixture Model Weight Adaptation for Language and Dialect Recognition. IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH AND LANGUAGE PROCESSING, 2014, vol. 2014, no. 7, p. 1117-1129. ISSN: 2329-9290.
Detail
MATĚJKA, P.; ZHANG, L.; NG, T.; MALLIDI, S.; GLEMBEK, O.; MA, J.; ZHANG, B. Neural Network Bottleneck Features for Language Identification. In Proceedings of Odyssey 2014. Proceedings of Odyssey: The Speaker and Language Recognition Workshop Odyssey 2014, Joensuu, Finland. Joensuu: International Speech Communication Association, 2014. p. 299-304. ISSN: 2312-2846.
Detail
LEI, Y.; BURGET, L.; SCHEFFER, N. Bilinear Factor Analysis for iVector Based Speaker Verification. Proceedings of Interspeech. Portland, Oregon: International Speech Communication Association, 2012. p. 1-4. ISBN: 978-1-62276-759-5.
Detail
NG, T.; ZHANG, B.; NGUYEN, L.; MATSOUKAS, S.; ZHOU, X.; MESGARANI, N.; VESELÝ, K.; MATĚJKA, P. Developing a Speech Activity Detection System for the DARPA RATS Program. Proceedings of Interspeech 2012. Proceedings of Interspeech. Portland, Oregon: International Speech Communication Association, 2012. p. 1-4. ISBN: 978-1-62276-759-5. ISSN: 1990-9772.
Detail
PLCHOT, O.; KARAFIÁT, M.; BRUMMER, J.; GLEMBEK, O.; MATĚJKA, P.; DE VILLIERS, E.; ČERNOCKÝ, J. Speaker vectors from Subspace Gaussian Mixture Model as complementary features for Language Identification. In Proceedings of Odyssey 2012, The Speaker and Language Recognition Workshop. Singapur: International Speech Communication Association, 2012. p. 330-333. ISBN: 978-981-07-3093-2.
Detail
SOUFIFAR, M.; KOCKMANN, M.; BURGET, L.; PLCHOT, O.; GLEMBEK, O.; SVENDSEN, T. iVector Approach to Phonotactic Language Recognition. In Proceedings of Interspeech 2011. Proceedings of Interspeech. Florence: International Speech Communication Association, 2011. p. 2913-2916. ISBN: 978-1-61839-270-1. ISSN: 1990-9772.
Detail
MARTÍNEZ GONZÁLEZ, D.; PLCHOT, O.; BURGET, L.; GLEMBEK, O.; MATĚJKA, P. Language Recognition in iVectors Space. In Proceedings of Interspeech 2011. Proceedings of Interspeech. Florence: International Speech Communication Association, 2011. p. 861-864. ISBN: 978-1-61839-270-1. ISSN: 1990-9772.
Detail
Odkaz
Odpovědnost: Matějka Pavel, Ing., Ph.D.