Detail projektu

Pokročilá extrakce a rozpoznávání obsahu tištěných a rukou psaných digitalizátů pro zvýšení jejich přístupnosti a využitelnosti

Období řešení: 01.03.2018 — 31.12.2022

Zdroje financování

Ministerstvo kultury ČR - Program na podporu aplikovaného výzkumu a experimentálního vývoje národní a kulturní identity na léta 2016 až 2022 (NAKI II)

- plně financující (2018-03-01 - 2022-12-31)

O projektu

Cílem projektu je vytvoření nástrojů a technologií pro zpřístupnění obsahu digitalizovaných historických dokumentů, které budou využívat aktuální vývoj v oblasti počítačového vidění, strojového učení a jazykového modelování a které v symbióze se součanými postupy a systémy vyhledávání, prezentace a zveřejňování digitalizátů umožní snažší vyhledávání a využití obsahu digitalizátů v případech, kde to dnes není technicky možné. V rámci projektu budou vytvořeny nástroje pro dosažení co nejvyšší úroveně automatizace v celém řetězci digitalizace a pro rošíření automatické analýzy obsahu i na dokumenty, které nyní není možné automaticky zpracovat. Nástroje, které v projektu vzniknou, umožní automatickou kontrolu a zlepšování kvality digitalizátů, automatický přepis tištěných textů s kvalitou nedostatečnou pro aktuálně dostupné nástroje, polo-automatický přepis ručně psaných dokumentů a automatickou extrakci semantické informace z polo-strukturovaných dokumentů (např. evidenční štíky a matriky). Tyto nástroje a postupy budou ověřeny zpracováním vybraných sad digitalizátů také v rámci poloprovozu ve spolupráci s MZK.

Popis anglicky
The project aims to create technology and tools which would improve accessibility of digitized historic documents. These tools, based on state of the art methods from computer vision, machine learning and language modeling, will enable existing digital archives and libraries to provide full-text search and content extraction for low quality historic printed and all hand written documents - which can not be automatically processed by the currently available tools. The project extends automation and capabilities of digitization pipeline by providing tools for automated quality assessment and control, quality improvement, automated text transcription of historic printed documents, semi-automated hand written text transcription, and automatic extraction of semantic information from semi-structured documents (e.g. library catalogs and birth records). The created tools and techniques will be validated by processing selected collections of digitized materials and by a pilot operation by cooperation with Moravian Library.

Klíčová slova
pokročilé metody extrakce, rozpoznávání obsahu, digitalizáty, zvýšení využitelnosti

Klíčová slova anglicky
Optical character recognition, handwriting recognition, natural language processing, quality enhancement, language model, convolutional neural networks recurrent neural networks

Označení

DG18P02OVV055

Originální jazyk

čeština

Řešitelé

Smrž Pavel, doc. RNDr., Ph.D. - hlavní řešitel
Beneš Karel, Ing. - spoluřešitel
Kodym Oldřich, Ing., Ph.D. - spoluřešitel

Útvary

Ústav počítačové grafiky a multimédií
- příjemce (24.04.2017 - 31.12.2022)
Moravská zemská knihovna v Brně
- spolupříjemce (24.04.2017 - 31.12.2022)

Výsledky

KIŠŠ, M.; HRADIŠ, M.; KODYM, O. Brno Mobile OCR Dataset. In Proceedings of the International Conference on Document Analysis and Recognition, ICDAR. Sydney: Institute of Electrical and Electronics Engineers, 2020. p. 1352-1357. ISBN: 978-1-7281-3015-6.
Detail

KODYM, O.; HRADIŠ, M. TG2: text-guided transformer GAN for restoring document readability and perceived quality. International Journal on Document Analysis and Recognition, 2021, vol. 2021, no. 1, p. 1-14. ISSN: 1433-2825.
Detail

KIŠŠ, M.; KOHÚT, J.; BENEŠ, K.; HRADIŠ, M. Importance of Textlines in Historical Document Classification. In Uchida, S., Barney, E., Eglin, V. (eds) Document Analysis Systems. Lecture Notes in Computer Science. La Rochelle: Springer Nature Switzerland AG, 2022. p. 158-170. ISBN: 978-3-031-06554-5.
Detail

KODYM, O.; HRADIŠ, M. Page Layout Analysis System for Unconstrained Historic Documents. In Lladós J., Lopresti D., Uchida S. (eds) Document Analysis and Recognition - ICDAR 2021. Lecture Notes in Computer Science. Lausanne: Springer Nature Switzerland AG, 2021. p. 492-506. ISBN: 978-3-030-86330-2.
Detail

KIŠŠ, M.; BENEŠ, K.; HRADIŠ, M. AT-ST: Self-Training Adaptation Strategy for OCR in Domains with Limited Transcriptions. In Lladós J., Lopresti D., Uchida S. (eds) Document Analysis and Recognition - ICDAR 2021. Lecture Notes in Computer Science. Lausanne: Springer Nature Switzerland AG, 2021. p. 463-477. ISBN: 978-3-030-86336-4.
Detail

DVOŘÁKOVÁ, M.; HRADIŠ, M.; ŽABIČKA, P.; KOHÚT, J.; KIŠŠ, M.; BENEŠ, K. Využití PERO OCR při přepisu rukopisů. Archivní časopis, 2022, roč. 72, č. 1, s. 14-27. ISSN: 0004-0398.
Detail

KOHÚT, J.; HRADIŠ, M. TS-Net: OCR Trained to Switch Between Text Transcription Styles. In Lladós J., Lopresti D., Uchida S. (eds) Document Analysis and Recognition - ICDAR 2021. Lecture Notes in Computer Science. Lecture Notes in Computer Science. Lausanne: Springer Nature Switzerland AG, 2021. p. 478-493. ISBN: 978-3-030-86336-4. ISSN: 0302-9743.
Detail

HRADIŠ, M.; KIŠŠ, M.; KOHÚT, J.; BENEŠ, K.; KOSTELNÍK, M.: PERO-INDEXER; Software pro extrakci informace z polostrukturovaných dokumentů. https://github.com/DCGM/pero-indexer, pip https://pypi.org/project/pero-indexer/. URL: https://www.fit.vut.cz/research/product/755/. (software)
Detail

HRADIŠ, M.; KIŠŠ, M.; KOHÚT, J.; BENEŠ, K.; KODYM, O.; BUCHAL, P.; HŘÍBEK, D.: PERO-OCR-HWR; Interaktivní polo-automatické rozpoznávání ručně psaného písma. https://github.com/DCGM/pero_ocr_web. URL: https://github.com/DCGM/pero_ocr_web. (software)
Detail

HRADIŠ, M.: PERO-SCAN; Zařízení pro digitalizaci specificky poškozených dokumentů. Moravská Zemská Knihovna. URL: https://www.fit.vut.cz/research/product/667/. (funkční vzorek)
Detail

HRADIŠ, M.; KIŠŠ, M.; KODYM, O.; KOHÚT, J.; BENEŠ, K.; BUCHAL, P.: PERO-OCR-PRINT; Software pro adaptabilní rozpoznávání textu starých tisků. https://github.com/DCGM/pero-ocr, pip https://pypi.org/project/pero-ocr/. URL: https://www.fit.vut.cz/research/product/666/. (software)
Detail

BAKO, M.; BUCHAL, P.; HRADIŠ, M.: PERO-QUALITY; Automatic document quality assessment software module. https://github.com/DCGM/pero-quality. URL: https://github.com/DCGM/pero-quality. (software)
Detail

HRADIŠ, M.; KODYM, O.: PERO-ENHANCE; Software module for automatic enhancement of digitized documents. github.com/DCGM/pero-enhance. URL: https://www.fit.vut.cz/research/product/630/. (software)
Detail