Detail předmětu

Zpracování přirozeného jazyka (v angličtině)

FIT-ZPJaAk. rok: 2024/2025

Východiska počítačového zpracování přirozeného jazyka, historická perspektiva, statistické metody zpracování přirozeného jazyka a aktuální přístupy založené na strojovému učení, zejména na modelech umělých neuronových sítí. Význam jednotlivých slov, lexikologie a lexikografie, slovníkové významy a neuronové modely pro výpočet vektorové reprezentace slov, klasifikace významů slov a jejich automatická inference. Složková a závislostní syntaxe, syntaktická víceznačnost, neuronové parsery vytvářející závislostní stromy. Jazykové modelování a jeho využití v obecných architekturách. Strojový překlad, historický pohled na statistické modely překladu, překladače založené na neuronových sítích a způsoby jejich vyhodnocování. Modely typu seq2seq a mechanismy pozornosti v neuronových modelech. Odpovídání na otázky v přirozeném jazyce s využitím neuronových modelů, komponenty pro vyhledávání informací v textu, porozumění textu, učení modelů z obecných textů. Klasifikace textů a její moderní aplikace, konvoluční neuronové sítě pro klasifikaci vět. Jazykově nezávislé reprezentace, texty ze sociálních sítí vymykající se normě, reprezentace částí slov, modely reprezentující informace z částí slov. Kontextuální reprezentace a předtrénování kontextuálně-závislých jazykových modulů. Sítě typu transformer a self-attention pro generativní modely. Komunikační agenti a generování přirozeného jazyka. Koreference a její automatické zpracování, souvislost s dalšími komponentami porozumění textu.

Jazyk výuky

angličtina

Počet kreditů

Garant předmětu

doc. RNDr. Pavel Smrž, Ph.D.

Zajišťuje ústav

Ústav počítačové grafiky a multimédií (UPGM)

Nabízen zahraničním studentům

Všech fakult

Vstupní znalosti

Znalost programování v jazyce Python a zakladních principú matematické analyzy.

Pravidla hodnocení a ukončení předmětu

Půlsemestrální test - až 9 bodů
Individuální projekt - až 40 bodů
Závěrečná písemná zkouška - až 51 bodů

Kontrolovaná výuka zahrnuje půlsemestrální test, individuální projekt a písemnou zkoušku. Půlsemestrální test nemá náhradní termín, závěrečná zkouška má dva možné náhradní termíny.

Učební cíle

Porozumět počítačovému zpracování přirozeného jazyka a naučit se aplikovat moderní metody strojového učení v této oblasti. Seznámit se s pokročilými architekturami hlubokých neuronových sítí, které jsou úspěšně používány v rozličných úkolech zpracování přirozeného jazyka. Porozumět použití neuronových sítí pro sekvenční jazykové modelování, jejich použití pro podmíněné jazykové modely a porozumění přístupů kombinujících tyto techniky s jinými mechanismy v pokročilých aplikacích.
Studenti se v rámci předmětu seznámí s problematikou počítačového zpracování přirozeného jazyka a porozumí celé škále modelů neuronových sítí, které jsou v oblasti NLP běžně aplikovány. Pochopí rovněž základní principy neuronových realizací mechanismů pozornosti a modelů pro reprezentaci významu promluv a tomu, jak mohou být tyto modulární komponenty kombinovány při tvorbě současných systémů NLP. Budou schopni implementovat a vyhodnocovat běžné neuronové modely pro různé aplikace NLP.
Studenti se zdokonalí v praktickém užívání nástrojů pro práci s modely hlubokých neuronových sítí a se zpracováním textových dat.

Doporučená literatura

Géron, Aurélien. Hands-on machine learning with Scikit-Learn and TensorFlow: concepts, tools, and techniques to build intelligent systems. " O'Reilly Media, Inc.", 2017. (EN)
(EN)

Elearning

eLearning: aktuální otevřený kurz

Zařazení předmětu ve studijních plánech

Program IT-MGR-1H magisterský navazující
specializace MGH , 0 ročník, zimní semestr, doporučený kurs
Program MIT-EN magisterský navazující 0 ročník, zimní semestr, volitelný
Program MITAI magisterský navazující
specializace NGRI , 0 ročník, zimní semestr, volitelný
specializace NADE , 0 ročník, zimní semestr, volitelný
specializace NISD , 0 ročník, zimní semestr, volitelný
specializace NMAT , 0 ročník, zimní semestr, volitelný
specializace NSEC , 0 ročník, zimní semestr, volitelný
specializace NISY do 2020/21 , 0 ročník, zimní semestr, volitelný
specializace NNET , 0 ročník, zimní semestr, volitelný
specializace NMAL , 0 ročník, zimní semestr, volitelný
specializace NCPS , 0 ročník, zimní semestr, volitelný
specializace NHPC , 0 ročník, zimní semestr, volitelný
specializace NVER , 0 ročník, zimní semestr, volitelný
specializace NIDE , 0 ročník, zimní semestr, volitelný
specializace NISY , 0 ročník, zimní semestr, volitelný
specializace NEMB do 2023/24 , 0 ročník, zimní semestr, volitelný
specializace NSPE , 0 ročník, zimní semestr, povinný
specializace NEMB , 0 ročník, zimní semestr, volitelný
specializace NBIO , 0 ročník, zimní semestr, volitelný
specializace NSEN , 0 ročník, zimní semestr, volitelný
specializace NVIZ , 0 ročník, zimní semestr, volitelný

Typ (způsob) výuky

Přednáška

26 hod., nepovinná

Vyučující / Lektor

Ing. Martin Fajčík, Ph.D.
Ing. Martin Dočekal
Santosh Kesiraju, Ph.D.

Osnova

Úvod, historie oboru, aplikace a moderní přístupy založené na hlubokém učení
Významy slov a jejich vektorová reprezentace
Závislostní syntaxe
Jazykové modely
Strojový překlad
Modely typu seq2seq a pozornost (attention)
Odpovídání na otázky v přirozeném jazyce
Konvoluční neuronové sítě pro klasifikaci vět
Informace z částí slov: modely typu subword
Modelování kontextů použití: kontextuální reprezentace a předtrénování
Sítě typu transformer a self-attention pro generativní modely
Generování přirozeného jazyka
Koreference a její automatické zpracování

Projekt

26 hod., povinná