Project detail

Advanced content extraction and recognition for printed and handwritten documents for better accessibility and usability

Duration: 01.03.2018 — 31.12.2022

Funding resources

Ministerstvo kultury ČR - Program na podporu aplikovaného výzkumu a experimentálního vývoje národní a kulturní identity na léta 2016 až 2022 (NAKI II)

- whole funder (2018-03-01 - 2022-12-31)

On the project

Cílem projektu je vytvoření nástrojů a technologií pro zpřístupnění obsahu digitalizovaných historických dokumentů, které budou využívat aktuální vývoj v oblasti počítačového vidění, strojového učení a jazykového modelování a které v symbióze se součanými postupy a systémy vyhledávání, prezentace a zveřejňování digitalizátů umožní snažší vyhledávání a využití obsahu digitalizátů v případech, kde to dnes není technicky možné. V rámci projektu budou vytvořeny nástroje pro dosažení co nejvyšší úroveně automatizace v celém řetězci digitalizace a pro rošíření automatické analýzy obsahu i na dokumenty, které nyní není možné automaticky zpracovat. Nástroje, které v projektu vzniknou, umožní automatickou kontrolu a zlepšování kvality digitalizátů, automatický přepis tištěných textů s kvalitou nedostatečnou pro aktuálně dostupné nástroje, polo-automatický přepis ručně psaných dokumentů a automatickou extrakci semantické informace z polo-strukturovaných dokumentů (např. evidenční štíky a matriky). Tyto nástroje a postupy budou ověřeny zpracováním vybraných sad digitalizátů také v rámci poloprovozu ve spolupráci s MZK.

Description in English
The project aims to create technology and tools which would improve accessibility of digitized historic documents. These tools, based on state of the art methods from computer vision, machine learning and language modeling, will enable existing digital archives and libraries to provide full-text search and content extraction for low quality historic printed and all hand written documents - which can not be automatically processed by the currently available tools. The project extends automation and capabilities of digitization pipeline by providing tools for automated quality assessment and control, quality improvement, automated text transcription of historic printed documents, semi-automated hand written text transcription, and automatic extraction of semantic information from semi-structured documents (e.g. library catalogs and birth records). The created tools and techniques will be validated by processing selected collections of digitized materials and by a pilot operation by cooperation with Moravian Library.

Keywords
pokročilé metody extrakce, rozpoznávání obsahu, digitalizáty, zvýšení využitelnosti

Key words in English
Optical character recognition, handwriting recognition, natural language processing, quality enhancement, language model, convolutional neural networks recurrent neural networks

Mark

DG18P02OVV055

Default language

Czech

People responsible

Beneš Karel, Ing. - fellow researcher
Kodym Oldřich, Ing., Ph.D. - fellow researcher
Smrž Pavel, doc. RNDr., Ph.D. - principal person responsible

Units

Department of Computer Graphics and Multimedia
- beneficiary (2017-04-24 - 2022-12-31)

Results

KIŠŠ, M.; HRADIŠ, M.; KODYM, O. Brno Mobile OCR Dataset. In Proceedings of the International Conference on Document Analysis and Recognition, ICDAR. Sydney: Institute of Electrical and Electronics Engineers, 2020. p. 1352-1357. ISBN: 978-1-7281-3015-6.
Detail

KODYM, O.; HRADIŠ, M. TG2: text-guided transformer GAN for restoring document readability and perceived quality. International Journal on Document Analysis and Recognition, 2021, vol. 2021, no. 1, p. 1-14. ISSN: 1433-2825.
Detail

KIŠŠ, M.; KOHÚT, J.; BENEŠ, K.; HRADIŠ, M. Importance of Textlines in Historical Document Classification. In Uchida, S., Barney, E., Eglin, V. (eds) Document Analysis Systems. Lecture Notes in Computer Science. La Rochelle: Springer Nature Switzerland AG, 2022. p. 158-170. ISBN: 978-3-031-06554-5.
Detail

KODYM, O.; HRADIŠ, M. Page Layout Analysis System for Unconstrained Historic Documents. In Lladós J., Lopresti D., Uchida S. (eds) Document Analysis and Recognition - ICDAR 2021. Lecture Notes in Computer Science. Lausanne: Springer Nature Switzerland AG, 2021. p. 492-506. ISBN: 978-3-030-86330-2.
Detail

KIŠŠ, M.; BENEŠ, K.; HRADIŠ, M. AT-ST: Self-Training Adaptation Strategy for OCR in Domains with Limited Transcriptions. In Lladós J., Lopresti D., Uchida S. (eds) Document Analysis and Recognition - ICDAR 2021. Lecture Notes in Computer Science. Lausanne: Springer Nature Switzerland AG, 2021. p. 463-477. ISBN: 978-3-030-86336-4.
Detail

DVOŘÁKOVÁ, M.; HRADIŠ, M.; ŽABIČKA, P.; KOHÚT, J.; KIŠŠ, M.; BENEŠ, K. Využití PERO OCR při přepisu rukopisů. Archivní časopis, 2022, roč. 72, č. 1, s. 14-27. ISSN: 0004-0398.
Detail

KOHÚT, J.; HRADIŠ, M. TS-Net: OCR Trained to Switch Between Text Transcription Styles. In Lladós J., Lopresti D., Uchida S. (eds) Document Analysis and Recognition - ICDAR 2021. Lecture Notes in Computer Science. Lecture Notes in Computer Science. Lausanne: Springer Nature Switzerland AG, 2021. p. 478-493. ISBN: 978-3-030-86336-4. ISSN: 0302-9743.
Detail

HRADIŠ, M.; KIŠŠ, M.; KOHÚT, J.; BENEŠ, K.; KOSTELNÍK, M.: PERO-INDEXER; Software pro extrakci informace z polostrukturovaných dokumentů. https://github.com/DCGM/pero-indexer, pip https://pypi.org/project/pero-indexer/. URL: https://www.fit.vut.cz/research/product/755/. (software)
Detail

HRADIŠ, M.; KIŠŠ, M.; KOHÚT, J.; BENEŠ, K.; KODYM, O.; BUCHAL, P.; HŘÍBEK, D.: PERO-OCR-HWR; Interaktivní polo-automatické rozpoznávání ručně psaného písma. https://github.com/DCGM/pero_ocr_web. URL: https://github.com/DCGM/pero_ocr_web. (software)
Detail

HRADIŠ, M.: PERO-SCAN; Zařízení pro digitalizaci specificky poškozených dokumentů. Moravská Zemská Knihovna. URL: https://www.fit.vut.cz/research/product/667/. (funkční vzorek)
Detail

HRADIŠ, M.; KIŠŠ, M.; KODYM, O.; KOHÚT, J.; BENEŠ, K.; BUCHAL, P.: PERO-OCR-PRINT; Software pro adaptabilní rozpoznávání textu starých tisků. https://github.com/DCGM/pero-ocr, pip https://pypi.org/project/pero-ocr/. URL: https://www.fit.vut.cz/research/product/666/. (software)
Detail

BAKO, M.; BUCHAL, P.; HRADIŠ, M.: PERO-QUALITY; Automatic document quality assessment software module. https://github.com/DCGM/pero-quality. URL: https://github.com/DCGM/pero-quality. (software)
Detail

HRADIŠ, M.; KODYM, O.: PERO-ENHANCE; Software module for automatic enhancement of digitized documents. github.com/DCGM/pero-enhance. URL: https://www.fit.vut.cz/research/product/630/. (software)
Detail