Přístupnostní navigace
E-application
Search Search Close
Project detail
Duration: 01.03.2018 — 31.12.2022
Funding resources
Ministerstvo kultury ČR - Program na podporu aplikovaného výzkumu a experimentálního vývoje národní a kulturní identity na léta 2016 až 2022 (NAKI II)
- whole funder (2018-03-01 - 2022-12-31)
On the project
Cílem projektu je vytvoření nástrojů a technologií pro zpřístupnění obsahu digitalizovaných historických dokumentů, které budou využívat aktuální vývoj v oblasti počítačového vidění, strojového učení a jazykového modelování a které v symbióze se součanými postupy a systémy vyhledávání, prezentace a zveřejňování digitalizátů umožní snažší vyhledávání a využití obsahu digitalizátů v případech, kde to dnes není technicky možné. V rámci projektu budou vytvořeny nástroje pro dosažení co nejvyšší úroveně automatizace v celém řetězci digitalizace a pro rošíření automatické analýzy obsahu i na dokumenty, které nyní není možné automaticky zpracovat. Nástroje, které v projektu vzniknou, umožní automatickou kontrolu a zlepšování kvality digitalizátů, automatický přepis tištěných textů s kvalitou nedostatečnou pro aktuálně dostupné nástroje, polo-automatický přepis ručně psaných dokumentů a automatickou extrakci semantické informace z polo-strukturovaných dokumentů (např. evidenční štíky a matriky). Tyto nástroje a postupy budou ověřeny zpracováním vybraných sad digitalizátů také v rámci poloprovozu ve spolupráci s MZK.
Description in EnglishThe project aims to create technology and tools which would improve accessibility of digitized historic documents. These tools, based on state of the art methods from computer vision, machine learning and language modeling, will enable existing digital archives and libraries to provide full-text search and content extraction for low quality historic printed and all hand written documents - which can not be automatically processed by the currently available tools. The project extends automation and capabilities of digitization pipeline by providing tools for automated quality assessment and control, quality improvement, automated text transcription of historic printed documents, semi-automated hand written text transcription, and automatic extraction of semantic information from semi-structured documents (e.g. library catalogs and birth records). The created tools and techniques will be validated by processing selected collections of digitized materials and by a pilot operation by cooperation with Moravian Library.
Keywordspokročilé metody extrakce, rozpoznávání obsahu, digitalizáty, zvýšení využitelnosti
Key words in EnglishOptical character recognition, handwriting recognition, natural language processing, quality enhancement, language model, convolutional neural networks recurrent neural networks
Mark
DG18P02OVV055
Default language
Czech
People responsible
Beneš Karel, Ing. - fellow researcherKodym Oldřich, Ing., Ph.D. - fellow researcherSmrž Pavel, doc. RNDr., Ph.D. - principal person responsible
Units
Department of Computer Graphics and Multimedia - beneficiary (2017-04-24 - 2022-12-31)
Results
KIŠŠ, M.; HRADIŠ, M.; KODYM, O. Brno Mobile OCR Dataset. In Proceedings of the International Conference on Document Analysis and Recognition, ICDAR. Sydney: Institute of Electrical and Electronics Engineers, 2020. p. 1352-1357. ISBN: 978-1-7281-3015-6.Detail
KODYM, O.; HRADIŠ, M. TG2: text-guided transformer GAN for restoring document readability and perceived quality. International Journal on Document Analysis and Recognition, 2021, vol. 2021, no. 1, p. 1-14. ISSN: 1433-2825.Detail
KIŠŠ, M.; KOHÚT, J.; BENEŠ, K.; HRADIŠ, M. Importance of Textlines in Historical Document Classification. In Uchida, S., Barney, E., Eglin, V. (eds) Document Analysis Systems. Lecture Notes in Computer Science. La Rochelle: Springer Nature Switzerland AG, 2022. p. 158-170. ISBN: 978-3-031-06554-5.Detail
KODYM, O.; HRADIŠ, M. Page Layout Analysis System for Unconstrained Historic Documents. In Lladós J., Lopresti D., Uchida S. (eds) Document Analysis and Recognition - ICDAR 2021. Lecture Notes in Computer Science. Lausanne: Springer Nature Switzerland AG, 2021. p. 492-506. ISBN: 978-3-030-86330-2.Detail
KIŠŠ, M.; BENEŠ, K.; HRADIŠ, M. AT-ST: Self-Training Adaptation Strategy for OCR in Domains with Limited Transcriptions. In Lladós J., Lopresti D., Uchida S. (eds) Document Analysis and Recognition - ICDAR 2021. Lecture Notes in Computer Science. Lausanne: Springer Nature Switzerland AG, 2021. p. 463-477. ISBN: 978-3-030-86336-4.Detail
DVOŘÁKOVÁ, M.; HRADIŠ, M.; ŽABIČKA, P.; KOHÚT, J.; KIŠŠ, M.; BENEŠ, K. Využití PERO OCR při přepisu rukopisů. Archivní časopis, 2022, roč. 72, č. 1, s. 14-27. ISSN: 0004-0398.Detail
KOHÚT, J.; HRADIŠ, M. TS-Net: OCR Trained to Switch Between Text Transcription Styles. In Lladós J., Lopresti D., Uchida S. (eds) Document Analysis and Recognition - ICDAR 2021. Lecture Notes in Computer Science. Lecture Notes in Computer Science. Lausanne: Springer Nature Switzerland AG, 2021. p. 478-493. ISBN: 978-3-030-86336-4. ISSN: 0302-9743.Detail
HRADIŠ, M.; KIŠŠ, M.; KOHÚT, J.; BENEŠ, K.; KOSTELNÍK, M.: PERO-INDEXER; Software pro extrakci informace z polostrukturovaných dokumentů. https://github.com/DCGM/pero-indexer, pip https://pypi.org/project/pero-indexer/. URL: https://www.fit.vut.cz/research/product/755/. (software)Detail
HRADIŠ, M.; KIŠŠ, M.; KOHÚT, J.; BENEŠ, K.; KODYM, O.; BUCHAL, P.; HŘÍBEK, D.: PERO-OCR-HWR; Interaktivní polo-automatické rozpoznávání ručně psaného písma. https://github.com/DCGM/pero_ocr_web. URL: https://github.com/DCGM/pero_ocr_web. (software)Detail
HRADIŠ, M.: PERO-SCAN; Zařízení pro digitalizaci specificky poškozených dokumentů. Moravská Zemská Knihovna. URL: https://www.fit.vut.cz/research/product/667/. (funkční vzorek)Detail
HRADIŠ, M.; KIŠŠ, M.; KODYM, O.; KOHÚT, J.; BENEŠ, K.; BUCHAL, P.: PERO-OCR-PRINT; Software pro adaptabilní rozpoznávání textu starých tisků. https://github.com/DCGM/pero-ocr, pip https://pypi.org/project/pero-ocr/. URL: https://www.fit.vut.cz/research/product/666/. (software)Detail
BAKO, M.; BUCHAL, P.; HRADIŠ, M.: PERO-QUALITY; Automatic document quality assessment software module. https://github.com/DCGM/pero-quality. URL: https://github.com/DCGM/pero-quality. (software)Detail
HRADIŠ, M.; KODYM, O.: PERO-ENHANCE; Software module for automatic enhancement of digitized documents. github.com/DCGM/pero-enhance. URL: https://www.fit.vut.cz/research/product/630/. (software)Detail