Detail projektu
Sequence summarizing neural networks for speaker recognition
Období řešení: 1.7.2016 — 30.6.2019
Zdroje financování
Evropská unie - Horizon 2020
O projektu
The proposed project deals with speaker recognition and is motivated by the huge performance gains that, in recent years, have been brought to other recognition tasks by so called neural networks (NN)s. The objective of the proposal is to develop a new type of NN that is suitable for speaker recognition and take it to the state where it is ready for practical use. So far, attempts to take advantage of NNs in speaker recognition have replaced one or more components in the state-of-the-art speaker recognition chain with NN equivalencies. However, this approach has the same limitations as the state-of-art processing chain in terms of what kind of patterns in the speech signals that be can modeled. Instead, our proposed project aims at replacing the whole speaker recognition chain with one NN that process whole utterances in one step. This approach should take better advantage of NNs ability to model complex patterns in the speech signals. The objectives of the proposal will be achieved by theoretical work (derivation of NN structure, training criteria etc.), implementation (parallelization, scalability etc.) and careful testing on real speech data (finding appropriate default settings etc.).
Popis česky
Automatické rozpoznávání mluvčího má za úkol oveřit nebo identifikovat osobu na
základě nahrávky. Komerční aplikace rozpoznávání mluvčího jsou v přístupových
systémech a v bankovnictví, důležité je také užití je v oblasti národní
bezpečnosti. Navrhovaný projekt se týká automatického rozpoznávání mluvčího a je
inspirován obrovským pokrokem, který v několika minulých letech přinesly do
detekčních a rozpoznávacích úloh umělé neuronové sítě (neural networks, NN).
Cílem našeho projektu je vyvinout nový typ NN, která bude vhodná pro rozpoznávání
mluvčího a dosáhnout stavu, kdy bude tento přístup použitelný pro praktické
aplikace. Dosavadní snahy použít NN pro rozpoznávání mluvčího se vždy zaměřovaly
jen na to, že se jeden nebo několik funkčních bloků v klasických systémech
nahradil za NN. Tento přístup je ale omezen (podobně jako existující systémy)
tím, že je pevně předepsáno, co má neuronová síť modelovat. Náš projekt se
zaměřuje na náhradu celého řetězce bloků v rozpoznávacím systému jednou
neuronovou sítí, která bude celé promluvy zpracovávat v jediném kroku. To by mělo
lépe využít schopností NN modelovat složité vzory v řečových signálech. Cíle
projektu budou dosaženy teoretickou prací (odvození struktury NN, odvození
kritérií pro trénování), implementací (paralelizace, škálování, atd.) a důkladným
testováním na reálných řečových datech. Navrhovaný projekt je plně v souladu
s Regionální inovační strategií Jihomoravského kraje, a jeho specializační
strategií "Smart Specialization strategy (S3)". S3 definuje výzkum a vývoj
v oblasti počítačového hardware a software jako jednu z pěti strategických
priorit, a zvlášť zmiňuje oblasti IT bezpečnosti a cognitroniky. Navrhovaný
projekt zcela spadá do oblasti cognitroniky a vzhledem k hlavním aplikacím
rozpoznávání mluvčího se týká i oblasti počítačové bezpečnosti.
Klíčová slova
Speaker recognition, Neural networks
Označení
5SA15094
Originální jazyk
angličtina
Řešitelé
Rohdin Johan Andréas, M.Sc., Ph.D. - hlavní řešitel
Útvary
Ústav počítačové grafiky a multimédií
- odpovědné pracoviště (24.11.2015 - nezadáno)
Výzkumná skupina dolování dat z řeči BUT Speech@FIT
- interní (24.11.2015 - 30.6.2019)
Ústav počítačové grafiky a multimédií
- příjemce (24.11.2015 - 30.6.2019)
Odkaz
Odpovědnost: Rohdin Johan Andréas, M.Sc., Ph.D.