Project Detail

Funding resources

Evropská unie - Horizon 2020

On the project

This project focuses on automatic speaker recognition (SID), the task of determining the identity of the speaker in a speech recording. Disentangling the speaker specific information from the rest of nuisance variability (channel, etc.) requires complex models. Deep neural networks (DNNs) have recently showed their potential for this, as the popular x-vector learnt by a DNN. Here, we aim for end-to-end SID where the system is optimized as a whole for the target task. Despite some first steps in this line, several aspects are still unexplored. We propose to explore recurrent approaches, suitable to deal with temporal signals, as well as different pooling methods to obtain a fixed-length representation from a variable length input sequence of speech, an important issue in the field. We also want to explore different flavors of attention mechanisms, which make the DNN focus on relevant parts of the input, providing a way to quantify how much evidence has been collected about the speaker identity and the uncertainty of the obtained representation, critical issue when making (Bayesian) decisions in SID. Finally, some other approaches such as using the raw signal (instead of features) or other advances that might arise will be also explored for SID and related tasks. To achieve our goals, we will start from theory, implement the proposed approaches and test on real speech data. The outcomes are intended to benefit both scientific community and speech processing industry, such as Phonexia or Nuance. The applicant Dr. Alicia Lozano-Diez is an excellent female researcher, who has done her Ph.D. at Audias (Universidad Autonoma de Madrid, Spain), a respected research lab. The host group Speech@FIT from Brno University of Technology (Czechia) has a top-class track on speech processing research. Thus, we expect the combination of both the researcher and the host to both boost the researcher career and benefit the host group (and its industrial European partners).

Description in Czech
Tento projekt se zaměřuje na automatické rozpoznávání reproduktorů (SID), úlohu určení totožnosti řečníka při záznamu řeči. Odstranění informací specifických pro reproduktory od ostatních obtížných variabilit (kanál atd.) Vyžaduje složité modely. Hloubkové neuronové sítě (DNN) nedávno prokázaly svůj potenciál, neboť populární x-vektor se naučil DNN. Zde se zaměřujeme na SID end-to-end, kde je systém optimalizován jako celek pro cílové úkoly. Přes některé první kroky v tomto směru je několik aspektů stále neprobádaných. Navrhujeme prozkoumat opakované přístupy, vhodné pro řešení časových signálů, stejně jako různé metody sdružování pro získání reprezentace s pevnou délkou ze vstupní sekvence řeči s proměnnou délkou, což je důležitá otázka v oboru. Také chceme prozkoumat různé chování mechanizmů pozornosti, které činí soustředění DNN na příslušné části vstupů a poskytují způsob, jak kvantifikovat, kolik důkazů bylo shromážděno o totožnosti řečníka a nejistotě získaného zastoupení, což je kritický problém při vytváření (Bayesovské) rozhodnutí v SID. Některé další přístupy, jako je použití syrového signálu (namísto funkcí) nebo jiné pokroky, které by mohly vzniknout, budou také zkoumány pro SID a související úkoly. Abychom dosáhli našich cílů, začneme od teorie, implementujeme navrhované přístupy a testujeme skutečné řečové údaje. Výstupy mají být přínosem jak pro vědeckou komunitu, tak pro zpracování řeči, jako je Phonexia nebo Nuance. Žadatelka Dr. Alicia Lozano-Diezová je vynikajícím výzkumným pracovníkem, který doktorskou práci vykonal. v Audias (Universidad Autonoma de Madrid, Španělsko), respektované výzkumné laboratoře. Hostitelská skupina Speech @ FIT z Vysoké školy technologické v Brně (Czechia) má špičkovou tradici výzkumu zpracování řeči. Proto očekáváme, že kombinace výzkumného pracovníka i hostitele podpoří kariéru výzkumného pracovníka a prospěje hostitelské skupině (a jejích evropských průmyslových partnerů).

Keywords
machine learning, data mining, statistical data processing and applications, numerical analysis, simulation, optimisation, modelling tools, signal processing, neural networks, connectionist systems, fuzzy logic, complexity and cryptography, electronic security, privacy, biometrics, speaker recognition, Deep Neural Networks, Attention Models, Deep Learning, Language Recognition, Speech Processing

Key words in Czech
strojní učení, dolování dat, zpracování statistických dat a aplikace, numerická analýza, simulace, optimalizace, modelovací nástroje, zpracování signálů, neuronové sítě, spojovací systémy, fuzzy logika, složitost a kryptografie, elektronická bezpečnost, Sítě, modely pozornosti, hluboké učení, rozpoznávání jazyka, zpracování řeči

Default language

English

People responsible

Lozano Díez Alicia, Ph.D. - principal person responsible

Units

Department of Computer Graphics and Multimedia
- responsible department (8.2.2021 - not assigned)
Department of Computer Graphics and Multimedia
- responsible department (12.9.2018 - 31.1.2021)
Speech Data Mining Research Group BUT Speech@FIT
- internal (12.9.2018 - 31.1.2021)
Department of Computer Graphics and Multimedia
- beneficiary (12.9.2018 - 31.1.2021)

Results

LOZANO DÍEZ, A.; SILNOVA, A.; PULUGUNDLA, B.; ROHDIN, J.; VESELÝ, K.; BURGET, L.; PLCHOT, O.; GLEMBEK, O.; NOVOTNÝ, O.; MATĚJKA, P. BUT Text-Dependent Speaker Verification System for SdSV Challenge 2020. In Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. Proceedings of Interspeech. Shanghai: International Speech Communication Association, 2020. no. 10, p. 761-765. ISSN: 1990-9772.
Detail

BURGET, L.; GLEMBEK, O.; LOZANO DÍEZ, A.; MATĚJKA, P.; NOVOTNÝ, O.; PLCHOT, O.; PULUGUNDLA, B.; ROHDIN, J.; SILNOVA, A.; VESELÝ, K. BUT System Description to SdSV Challenge 2020. Proceedings of Short-duration Speaker Verification Challenge 2020 Workshop. Shanghai, on-line event of Interspeech 2020 Conference: 2020. p. 1-5.
Detail

LANDINI, F.; LOZANO DÍEZ, A.; BURGET, L.; DIEZ SÁNCHEZ, M.; SILNOVA, A.; ŽMOLÍKOVÁ, K.; GLEMBEK, O.; MATĚJKA, P.; STAFYLAKIS, T.; BRUMMER, J. BUT System Description for The Third DIHARD Speech Diarization Challenge. Proceedings available at Dihard Challenge Github. on-line by LDC and University of Pennsylvania: 2021. p. 1-5.
Detail

ALAM, J.; BOULIANNE, G.; BURGET, L.; DAHMANE, M.; DIEZ SÁNCHEZ, M.; GLEMBEK, O.; LALONDE, M.; LOZANO DÍEZ, A.; MATĚJKA, P.; MIZERA, P.; MOŠNER, L.; NOISEUX, C.; MONTEIRO, J.; NOVOTNÝ, O.; PLCHOT, O.; ROHDIN, J.; SILNOVA, A.; SLAVÍČEK, J.; STAFYLAKIS, T.; ST-CHARLES, P.; WANG, S.; ZEINALI, H. Analysis of ABC Submission to NIST SRE 2019 CMN and VAST Challenge. Proceedings of Odyssey 2020 The Speaker and Language Recognition Workshop. Proceedings of Odyssey: The Speaker and Language Recognition Workshop Odyssey 2014, Joensuu, Finland. Tokyo: International Speech Communication Association, 2020. no. 11, p. 289-295. ISSN: 2312-2846.
Detail

Link

https://cordis.europa.eu/article/id/430199-improving-computer-abilities-to-recognise-speakers

Responsibility: Lozano Díez Alicia, Ph.D.

VUT

Faculties and university institutes

Parts

Robust End-To-End SPEAKER recognition based on deep learning and attention models