Detail předmětu

Zpracování přirozeného jazyka (v angličtině)

FIT-ZPJaAk. rok: 2020/2021

Východiska počítačového zpracování přirozeného jazyka, historická perspektiva, statistické metody zpracování přirozeného jazyka a aktuální přístupy založené na strojovému učení, zejména na modelech umělých neuronových sítí. Význam jednotlivých slov, lexikologie a lexikografie, slovníkové významy a neuronové modely pro výpočet vektorové reprezentace slov, klasifikace významů slov a jejich automatická inference. Složková a závislostní syntaxe, syntaktická víceznačnost, neuronové parsery vytvářející závislostní stromy. Jazykové modelování a jeho využití v obecných architekturách. Strojový překlad, historický pohled na statistické modely překladu, překladače založené na neuronových sítích a způsoby jejich vyhodnocování. Modely typu seq2seq a mechanismy pozornosti v neuronových modelech. Odpovídání na otázky v přirozeném jazyce s využitím neuronových modelů, komponenty pro vyhledávání informací v textu, porozumění textu, učení modelů z obecných textů. Klasifikace textů a její moderní aplikace, konvoluční neuronové sítě pro klasifikaci vět. Jazykově nezávislé reprezentace, texty ze sociálních sítí vymykající se normě, reprezentace částí slov, modely reprezentující informace z částí slov. Kontextuální reprezentace a předtrénování kontextuálně-závislých jazykových modulů. Sítě typu transformer a self-attention pro generativní modely. Komunikační agenti a generování přirozeného jazyka. Koreference a její automatické zpracování, souvislost s dalšími komponentami porozumění textu.

Jazyk výuky

angličtina

Počet kreditů

Garant předmětu

doc. RNDr. Pavel Smrž, Ph.D.

Zajišťuje ústav

Ústav počítačové grafiky a multimédií (UPGM)

Výsledky učení předmětu

Studenti se v rámci předmětu seznámí s problematikou počítačového zpracování přirozeného jazyka a porozumí celé škále modelů neuronových sítí, které jsou v oblasti NLP běžně aplikovány. Pochopí rovněž základní principy neuronových realizací mechanismů pozornosti a modelů pro reprezentaci významu promluv a tomu, jak mohou být tyto modulární komponenty kombinovány při tvorbě současných systémů NLP. Budou schopni implementovat a vyhodnocovat běžné neuronové modely pro různé aplikace NLP.
Studenti se zdokonalí v praktickém užívání nástrojů pro práci s modely hlubokých neuronových sítí a se zpracováním textových dat.

Prerekvizity

Dobrá znalost modelů umělých neuronových sítí a programování v jazyce Python.

Způsob a kritéria hodnocení

Půlsemestrální test - až 9 bodů
Individuální projekt - až 40 bodů
Závěrečná písemná zkouška - až 51 bodů

Podmínky zápočtu:

Zpracování individuálního projektu

Učební cíle

Porozumět počítačovému zpracování přirozeného jazyka a naučit se aplikovat moderní metody strojového učení v této oblasti. Seznámit se s pokročilými architekturami hlubokých neuronových sítí, které jsou úspěšně používány v rozličných úkolech zpracování přirozeného jazyka. Porozumět použití neuronových sítí pro sekvenční jazykové modelování, jejich použití pro podmíněné jazykové modely a porozumění přístupů kombinujících tyto techniky s jinými mechanismy v pokročilých aplikacích.

Vymezení kontrolované výuky a způsob jejího provádění a formy nahrazování zameškané výuky

Kontrolovaná výuka zahrnuje půlsemestrální test, individuální projekt a písemnou zkoušku. Půlsemestrální test nemá náhradní termín, závěrečná zkouška má dva možné náhradní termíny.

Doporučená literatura

Deng, Li, and Yang Liu, eds. Deep Learning in Natural Language Processing. Springer, 2018. (EN)
Géron, Aurélien. Hands-on machine learning with Scikit-Learn and TensorFlow: concepts, tools, and techniques to build intelligent systems. " O'Reilly Media, Inc.", 2017. (EN)
Goldberg, Yoav. "Neural network methods for natural language processing." Synthesis Lectures on Human Language Technologies 10, no. 1 (2017): 1-309. (EN)
Raaijmakers, Stephan. Deep Learning for Natural Language Processing. Manning, 2019. (EN)

Zařazení předmětu ve studijních plánech

Program IT-MGR-2 magisterský navazující
obor MGM , 0 ročník, zimní semestr, volitelný
obor MBI , 0 ročník, zimní semestr, povinně volitelný
obor MBS , 0 ročník, zimní semestr, volitelný
obor MIN , 0 ročník, zimní semestr, volitelný
obor MIS , 0 ročník, zimní semestr, volitelný
obor MMM , 0 ročník, zimní semestr, volitelný
obor MPV , 0 ročník, zimní semestr, volitelný
obor MSK , 0 ročník, zimní semestr, volitelný
Program MITAI magisterský navazující
specializace NISY , 0 ročník, zimní semestr, volitelný
specializace NADE , 0 ročník, zimní semestr, volitelný
specializace NBIO , 0 ročník, zimní semestr, volitelný
specializace NCPS , 0 ročník, zimní semestr, volitelný
specializace NEMB , 0 ročník, zimní semestr, volitelný
specializace NHPC , 0 ročník, zimní semestr, volitelný
specializace NGRI , 0 ročník, zimní semestr, volitelný
specializace NIDE , 0 ročník, zimní semestr, volitelný
specializace NISD , 0 ročník, zimní semestr, volitelný
specializace NMAL , 0 ročník, zimní semestr, volitelný
specializace NMAT , 0 ročník, zimní semestr, volitelný
specializace NNET , 0 ročník, zimní semestr, volitelný
specializace NSEC , 0 ročník, zimní semestr, volitelný
specializace NSEN , 0 ročník, zimní semestr, volitelný
specializace NSPE , 0 ročník, zimní semestr, povinný
specializace NVER , 0 ročník, zimní semestr, volitelný
specializace NVIZ , 0 ročník, zimní semestr, volitelný
Program IT-MGR-1H magisterský navazující
obor MGH , 0 ročník, zimní semestr, doporučený kurs
Program IT-MGR-2 magisterský navazující
obor MGMe , 0 ročník, zimní semestr, volitelný

Typ (způsob) výuky

Přednáška

26 hod., nepovinná

Vyučující / Lektor

doc. RNDr. Pavel Smrž, Ph.D.

Osnova

Úvod, historie oboru, aplikace a moderní přístupy založené na hlubokém učení
Významy slov a jejich vektorová reprezentace
Závislostní syntaxe
Jazykové modely
Strojový překlad
Modely typu seq2seq a pozornost (attention)
Odpovídání na otázky v přirozeném jazyce
Konvoluční neuronové sítě pro klasifikaci vět
Informace z částí slov: modely typu subword
Modelování kontextů použití: kontextuální reprezentace a předtrénování
Sítě typu transformer a self-attention pro generativní modely
Generování přirozeného jazyka
Koreference a její automatické zpracování

Projekt

26 hod., povinná

Vyučující / Lektor

doc. RNDr. Pavel Smrž, Ph.D.

Osnova

Individuálně zadávaný projekt

VUT

Fakulty

Vysokoškolské ústavy

Součásti

Zpracování přirozeného jazyka (v angličtině)

Typ (způsob) výuky