Detail projektu
semANT - Sémantický průzkumník textového kulturního dědictví
Období řešení: 1.3.2023 — 31.12.2027
Zdroje financování
Ministerstvo kultury ČR - NAKI III – program na podporu aplikovaného výzkumu v oblasti národní a kulturní identity na léta 2023 až 2030
O projektu
Hlavním cílem tohoto projektu je proto zlepšit možnosti vyhledávání ve fulltextové reprezentaci digitalizovaných dokumentů na úrovni významu textu a možnosti přirozené navigace mezi tématicky podobnými dokumenty. Uživatelům poskytneme fulltextové vyhledávání rozšířené o pochopení významu dotazů, možnost vyhledávat podle částí textu (například odstavců) s možností specifikovat současně téma, které ho v daném textu zajímá. Systém bude pracovat s automaticky identifikovanými tématy, ale umožní uživatelům definovat vlastní témata na základě příkladů z textů.
Popis anglicky
The main goal of this project is therefore to improve the possibilities of
searching in the full-text representation of digitized documents at the level of
text meaning and the possibilities of natural navigation between thematically
similar documents. We provide users with a full-text search extended by
understanding the meaning of queries, the ability to search by parts of the text
(such as paragraphs) with the ability to specify at the same time the topic that
interests him in the text. The system will work with automatically identified
topics, but will allow users to define their own topics based on examples from
texts.
Klíčová slova
digitální knihovna, identifikace tématu, vyhledávání sémantických dokumentů,
průzkum obsahu, vizualizace obsahu
Klíčová slova anglicky
digital library, topic identification, semantic document search, content
exploration, content visualization
Označení
DH23P03OVV060
Originální jazyk
čeština
Řešitelé
Hradiš Michal, Ing., Ph.D. - hlavní řešitel
Beneš Karel, Ing., Ph.D. - spoluřešitel
Dočekal Martin, Ing. - spoluřešitel
Fajčík Martin, Ing., Ph.D. - spoluřešitel
Kavalová Radka, Mgr. - spoluřešitel
Kišš Martin, Ing. - spoluřešitel
Kohút Jan, Ing. - spoluřešitel
Lampa Petr, Ing. - spoluřešitel
Smrž Pavel, doc. RNDr., Ph.D. - spoluřešitel
Útvary
Ústav počítačové grafiky a multimédií
- odpovědné pracoviště (19.4.2022 - nezadáno)
Masarykova Univerzita v Brně
- spolupříjemce (19.4.2022 - 31.12.2027)
Moravská zemská knihovna v Brně
- spolupříjemce (19.4.2022 - 31.12.2027)
Ústav počítačové grafiky a multimédií
- příjemce (19.4.2022 - 31.12.2027)
Výsledky
DOČEKAL, M.; FAJČÍK, M.; HRADIŠ, M.: Textjuicer; Textjuicer - Software for Generating Summaries. https://github.com/DCGM/semant-summarization. URL: https://github.com/DCGM/semant-summarization. (software)
Detail
KIŠŠ, M.; HRADIŠ, M. Self-supervised Pre-training of Text Recognizers. In Barney Smith, E.H., Liwicki, M., Peng, L. (eds) Document Analysis and Recognition - ICDAR 2024. Lecture Notes in Computer Science. Atény: Springer Nature Switzerland AG, 2024. p. 218-235. ISBN: 978-3-031-70545-8.
Detail
KOSTELNÍK, M.; BENEŠ, K.; HRADIŠ, M.; VAŠKO, M.: semAnt-TextBite; Systém pro analýzu struktury dokumentů. https://github.com/DCGM/semANT-TextBite, pip https://pypi.org/project/textbite/. URL: https://www.fit.vut.cz/research/product/811/. (software)
Detail
KOHÚT, J.; HRADIŠ, M. Finetuning Is a Surprisingly Effective Domain Adaptation Baseline in Handwriting Recognition. In Document Analysis and Recognition - ICDAR 2023. Lecture Notes in Computer Science. Lecture Notes in Computer Science. San José: Springer Nature Switzerland AG, 2023. p. 269-286. ISBN: 978-3-031-41684-2. ISSN: 0302-9743.
Detail
Odpovědnost: Hradiš Michal, Ing., Ph.D.