Multi-lingualita v řečových technologiích

Duration: 1.1.2020 — 31.8.2023

Ministerstvo školství, mládeže a tělovýchovy ČR - INTER-EXCELLENCE - Podprogram INTER-ACTION

Ministerstvo školství, mládeže a tělovýchovy ČR - INTER-EXCELLENCE - Podprogram INTER-ACTION

Technologie dolování řečových dat a rozhraní člověk-stroj založené na řeči zažily v posledním desetiletí významné pokroky a  řada aplikací byla úspěšně komercializována. Obvykle však fungují správně pouze v  příznivých scénářích -v jazycích s množstvím dat pro trénování a v relativně čistém prostředí, jako je kancelář nebo byt. Narychle se rozvíjejících velkých trzích, jako je ten indický, ztěžují využívání řeči závažné problémy: mnoho jazyků (některé z nich s omezenými nebo chybějícími zdroji), velmi hlučné podmínky (spousta obchodů se jednoduše provádí na ulicích indických měst)a variabilní počet mluvčích v konverzaci (od běžných dvou po celé rodiny). Díky tomu je vývoj automatického rozpoznávání řeči (automatic speech recognition, ASR), rozpoznávání mluvčího (speaker recognition, SR) a  diarizace mluvčích (určení, kdo kdy mluvil, speaker diarization, SD) komplikovaný. V  rámci navrhovaného projektu se dvě zavedené akademické laboratoře se zkušenostmi s multilingválním ASR, robustním SR a SD: Vysoké učení technické v Brně (VUT), IIT Madras (IIT-M) spojily s důležitým hráčem na indickém a globálním trhu s elektronikou -Samsung R&D Institute India-Bangalore (SRI-B), a  navrhují významný posun vtěchto technologiích, zejména ve vícejazyčném ASR s  omezenými zdroji. Zatímco VUT a  IIT-M budou poskytovat špičkový výzkum voblasti dolování řeči (založený mimo jiné na amerických programech IARPA Babel and Material, vítězství v evaluaci IARPA ASpIRE a v Interspeech 2018 Low Resource Speech Recognition Challenge for Indian Languages, a na indickém projektu MANDI) , SRI-B bude poskytovat data, průmyslové vedení a bude se věnovat tvorbě demonstrátorů.

Speech data mining technologies and human-machine interfaces based on speech have witnessed significant advances in the past decade and numerous applications have been successfully commercialized. However, they usually work correctly only in favorable scenarios - in languages with abundance of training data and in relatively clean environments, such as office or apartment. In fast developing big markets such as the Indian one, severe problems make the exploitation of speech difficult: multitude of languages (some of them with limited or missing resources), highly noisy conditions (lots of business is simply done on the streets in Indian cities), and highly variable numbers of speakers in a conversation (from normal two to whole families). These make the development of automatic speech recognition (ASR), speaker recognition (SR) and speaker diarization (determining who spoke when, SD) complicated. In the proposed project, two established research institutes with significant track multi-lingual ASR, robust SR and SD: Brno University of Technology (BUT), IIT Madras (IIT-M) have teamed up with an important player on the Indian and global personal electronics markets - Samsung R&D Institute India-Bangalore (SRI-B), and propose significant advances in several speech technologies, notably in multi-lingual low-resource ASR. While BUT and IIT-M will provide top speech research (based, among others, on the U.S. IARPA Babel and Material programs, victory in IARPA ASpIRE evaluation and in Interspeech 2018 Low Resource Speech Recognition Challenge for Indian Languages, and on Indian MANDI project), SRI-B will provide data, industrial guidelines and to produce demonstrators of technologies.

multi-lingualita, rozpoznávání řeči, strojové učení, data, přenos učení

multi-linguality, speech recognition, machine learning, data, transfer learning



Černocký Jan, prof. Dr. Ing. - principal person responsible
Egorova Ekaterina, Ing., Ph.D. - fellow researcher
Kocour Martin, Ing. - fellow researcher
Peng Junyi - fellow researcher
Plchot Oldřich, Ing., Ph.D. - fellow researcher
Skácel Miroslav, Ing. - fellow researcher
Yusuf Bolaji - fellow researcher
Žmolíková Kateřina, Ing., Ph.D. - fellow researcher


Department of Computer Graphics and Multimedia
- responsible department (19.7.2019 - not assigned)
Speech Data Mining Research Group BUT Speech@FIT
- internal (19.7.2019 - 31.8.2023)
Department of Computer Graphics and Multimedia
- beneficiary (19.7.2019 - 31.8.2023)


