Detail projektu

Pokročilé sémantické obohacování vícejazyčných kolekcí literárních textů

Období řešení: 01.06.2018 — 31.10.2021

Zdroje financování

Ministerstvo školství, mládeže a tělovýchovy ČR - INTER-EXCELLENCE - Podprogram INTER-COST

- částečně financující (2018-06-01 - 2021-10-31)

O projektu

Cílem projektu je přispět k aktivitám COST Akce CA 16204 - Distant-Reading - v oblastech souvisejících se sémantickým obohacováním rozsáhlých souborů literárních textů v různých jazycích. Budeme zkoumat a vyvíjet pokročilé metody extrakce metadat a anotace obsahu, s cílem explicitní reprezentace široké škály sémantických struktur v textech, nové techniky adaptace stávajících zdrojů a nástrojů pro nové jazyky, oblasti a kontexty, a způsoby efektivní správy shromážděných zdrojů a kontroly jejich kvality a konzistence.

Popis anglicky
The project will contribute to the activities of COST Action CA 16204 - Distant-Reading - in the areas related to semantic enrichment of large collections of literary texts in various languages. We will research and develop advanced methods of metadata extraction and content annotation, making explicit a wide range of semantic structures in texts, explore novel techniques to adapt existing resources and tools to new languages, domains, and contexts, and study new ways to efficiently manage collected resources and to check their quality and consistency.

Klíčová slova
Sémantika; Extrakce metadat

Klíčová slova anglicky
Semantics; Metadata Extraction

Označení

LTC18054

Originální jazyk

čeština

Řešitelé

Smrž Pavel, doc. RNDr., Ph.D. - hlavní řešitel

Útvary

Ústav počítačové grafiky a multimédií
- příjemce (11.12.2017 - 31.10.2021)

Výsledky

FAJČÍK, M.; BURGET, L.; SMRŽ, P. BUT-FIT at SemEval-2019 Task 7: Determining the Rumour Stance with Pre-Trained Deep Bidirectional Transformers. In Proceedings of the 13th International Workshop on Semantic Evaluation. Minneapolis, Minnesota: Association for Computational Linguistics, 2019. p. 1097-1104. ISBN: 978-1-950737-06-2.
Detail

JON, J.; FAJČÍK, M.; DOČEKAL, M.; SMRŽ, P. BUT-FIT at SemEval-2020 Task 4: Multilingual commonsense. In Proceedings of the Fourteenth Workshop on Semantic Evaluation. Barcelona: Association for Computational Linguistics, 2020. p. 374-390. ISBN: 978-1-952148-31-6.
Detail

FAJČÍK, M.; JON, J.; SMRŽ, P. Rethinking the Objectives of Extractive Question Answering. In Proceedings of the 3rd Workshop on Machine Reading for Question Answering. Proceedings of the 3rd Workshop on Machine Reading for Question Answering. Punta Cana: Association for Computational Linguistics, 2021. p. 14-27. ISBN: 978-1-954085-95-4.
Detail

FAJČÍK, M.; DOČEKAL, M.; ONDŘEJ, K.; SMRŽ, P. R2-D2: A Modular Baseline for Open-Domain Question Answering. In Findings of the Association for Computational Linguistics: EMNLP 2021. Findings of the Association for Computational Linguistics. Punta Cana: Association for Computational Linguistics, 2021. p. 854-870. ISBN: 978-1-955917-10-0.
Detail

DOČEKAL, M.; FAJČÍK, M.; JON, J.; SMRŽ, P. JokeMeter at SemEval-2020 Task 7: Convolutional Humor. In Proceedings of the Fourteenth Workshop on Semantic Evaluation. 2020. Barcelona (online): Association for Computational Linguistics, 2020. p. 843-851. ISBN: 978-1-952148-31-6.
Detail

FAJČÍK, M.; JON, J.; SMRŽ, P.: ROEQA; Rethinking the Objectives of Extractive Question Answering. https://github.com/KNOT-FIT-BUT/JointSpanExtraction. URL: https://github.com/KNOT-FIT-BUT/JointSpanExtraction. (software)
Detail

FAJČÍK, M.; DOČEKAL, M.; ONDŘEJ, K.; SMRŽ, P.: RD21; R2-D2: System for Open-Domain Question Answering. https://github.com/KNOT-FIT-BUT/R2-D2. URL: https://github.com/KNOT-FIT-BUT/R2-D2. (software)
Detail

FAJČÍK, M.; BURGET, L.; SMRŽ, P.: RU19; Official implementation of BUT-FIT's solution from Rumoureval2019 competition. https://github.com/MFajcik/RumourEval2019. URL: https://github.com/MFajcik/RumourEval2019. (software)
Detail