diplomová práce

Robustní rozpoznávání mluvčího pomocí neuronových sítí

Text práce 1.41 MB

Autor práce: Ing. Ján Profant

Ak. rok: 2018/2019

Vedoucí: Ing. Pavel Matějka, Ph.D.

Oponent: M.Sc. Johan Andréas Rohdin, Ph.D.

Abstrakt:

Tématem této práce je analýza nejmodernějších systémů pro rozpoznávání řečníka za použití neurónových sítí (nazývaných x-vektory) v rozličných podmínkách, jako jsou širokopásmové a úzkopásmové data, který je robustní vůči neviděnému jazyku, specifickému hluku nebo telefonnimu kodeku. Automatický systém mapuje zvukovou nahrávku variabilní délky do fixně dlouhého vektoru, který je následně využit jako reprezentace řečníka. V této práci jsme porovnali systémy založené na neurónových sítich s výsledkem VUT týmu v Speakers in the Wild Speaker Recognition Challenge (SITW), který využíval donedávna velmi populární statistický model - i-vektory. Pozorovali jsme, že s nedávno publikovanými x-vektory dosahujeme 4.38 krát nižší Equal Error Rate pro SITW core-core evaluační sadu v porovnání s výsledkem z roku 2016 od VUT v SITW soutěži. Kromě toho jsme ukázali, že diarizace v nahrávkach s více mluvčími významně snižuje chybovost systému pro SITW core-multi evaluační data, ale podobný trend jsme neviděli pro dataset NIST SRE 2018 VAST.

Klíčová slova:

verifikace mluvčího, rozpoznávání mluvčího, neurónové sítě, x-vector, i-vector

Termín obhajoby

18.06.2019

Výsledek obhajoby

obhájeno (práce byla úspěšně obhájena)

znamkaAznamka

Klasifikace

A

Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Otázky u obhajoby:

  • What were the most important things that made x-vectors work so well compared to other approaches/architectures for DNN embeddings?
  • Do you think more end-to-end approaches with joint training of embedding extractor and feature extractor or the backend will beat the x-vector approach in future?
  • Regarding Section 5.3.2. If K is very large, the clusters will be formed by very few segments and their representative x-vector could be quite random. Doesn't this mean that one of the cluster may match the enroll speaker very well just by chance? Could a better approach be derived?
  • S jakými sítěmi jste experimentoval? Nemělo by smysl trénovat rovnou klasifikátor?  

Jazyk práce

čeština

Fakulta

Ústav

Studijní program

Informační technologie (IT-MGR-2)

Studijní obor

Počítačová grafika a multimédia (MGM)

Složení komise

prof. Dr. Ing. Jan Černocký (předseda)
doc. Ing. Martin Čadík, Ph.D. (místopředseda)
prof. Ing. Jan Holub, Ph.D. (člen)
Ing. Zbyněk Křivka, Ph.D. (člen)
Ing. Libor Polčák, Ph.D. (člen)
Ing. Igor Szőke, Ph.D. (člen)

Posudek vedoucího
Ing. Pavel Matějka, Ph.D.

Známka navržená vedoucím: A

Soubor vložený vedoucím Velikost
Hodnocení vedoucího [.pdf] 127,46 kB

Známka navržená oponentem: A

Soubor vložený oponentem Velikost
Posudek oponenta [.pdf] 88,45 kB

Odpovědnost: Mgr. et Mgr. Hana Odstrčilová