Project detail
Sequence summarizing neural networks for speaker recognition
Duration: 1.7.2016 — 30.6.2019
Funding resources
Evropská unie - Horizon 2020
On the project
The proposed project deals with speaker recognition and is motivated by the huge performance gains that, in recent years, have been brought to other recognition tasks by so called neural networks (NN)s. The objective of the proposal is to develop a new type of NN that is suitable for speaker recognition and take it to the state where it is ready for practical use. So far, attempts to take advantage of NNs in speaker recognition have replaced one or more components in the state-of-the-art speaker recognition chain with NN equivalencies. However, this approach has the same limitations as the state-of-art processing chain in terms of what kind of patterns in the speech signals that be can modeled. Instead, our proposed project aims at replacing the whole speaker recognition chain with one NN that process whole utterances in one step. This approach should take better advantage of NNs ability to model complex patterns in the speech signals. The objectives of the proposal will be achieved by theoretical work (derivation of NN structure, training criteria etc.), implementation (parallelization, scalability etc.) and careful testing on real speech data (finding appropriate default settings etc.).
Description in Czech
Automatické rozpoznávání mluvčího má za úkol oveřit nebo identifikovat osobu na
základě nahrávky. Komerční aplikace rozpoznávání mluvčího jsou v přístupových
systémech a v bankovnictví, důležité je také užití je v oblasti národní
bezpečnosti. Navrhovaný projekt se týká automatického rozpoznávání mluvčího a je
inspirován obrovským pokrokem, který v několika minulých letech přinesly do
detekčních a rozpoznávacích úloh umělé neuronové sítě (neural networks, NN).
Cílem našeho projektu je vyvinout nový typ NN, která bude vhodná pro rozpoznávání
mluvčího a dosáhnout stavu, kdy bude tento přístup použitelný pro praktické
aplikace. Dosavadní snahy použít NN pro rozpoznávání mluvčího se vždy zaměřovaly
jen na to, že se jeden nebo několik funkčních bloků v klasických systémech
nahradil za NN. Tento přístup je ale omezen (podobně jako existující systémy)
tím, že je pevně předepsáno, co má neuronová síť modelovat. Náš projekt se
zaměřuje na náhradu celého řetězce bloků v rozpoznávacím systému jednou
neuronovou sítí, která bude celé promluvy zpracovávat v jediném kroku. To by mělo
lépe využít schopností NN modelovat složité vzory v řečových signálech. Cíle
projektu budou dosaženy teoretickou prací (odvození struktury NN, odvození
kritérií pro trénování), implementací (paralelizace, škálování, atd.) a důkladným
testováním na reálných řečových datech. Navrhovaný projekt je plně v souladu
s Regionální inovační strategií Jihomoravského kraje, a jeho specializační
strategií "Smart Specialization strategy (S3)". S3 definuje výzkum a vývoj
v oblasti počítačového hardware a software jako jednu z pěti strategických
priorit, a zvlášť zmiňuje oblasti IT bezpečnosti a cognitroniky. Navrhovaný
projekt zcela spadá do oblasti cognitroniky a vzhledem k hlavním aplikacím
rozpoznávání mluvčího se týká i oblasti počítačové bezpečnosti.
Keywords
Speaker recognition, Neural networks
Mark
5SA15094
Default language
English
People responsible
Rohdin Johan Andréas, M.Sc., Ph.D. - principal person responsible
Units
Department of Computer Graphics and Multimedia
- responsible department (24.11.2015 - not assigned)
Speech Data Mining Research Group BUT Speech@FIT
- internal (24.11.2015 - 30.6.2019)
Department of Computer Graphics and Multimedia
- beneficiary (24.11.2015 - 30.6.2019)
Link
Responsibility: Rohdin Johan Andréas, M.Sc., Ph.D.