Detail produktu

Software pro adaptabilní rozpoznávání textu starých tisků

HRADIŠ, M. KIŠŠ, M. KODYM, O. KOHÚT, J. BENEŠ, K. BUCHAL, P.

Typ produktu

software

Abstrakt

Tento Python balíček zapouzdřuje celý řetězec OCR včetně, analýzy rozložení stránky, detekci řádků, rozpoznání textu a dekódování textu s využitím jazykového modelu. Software je zaměřený na zpracování nekvalitních dokumentů (například digitalizovaných z mikrofilmů). Balíček poskytuje nástroj spustitelný z příkazové řádky i třídu, kterou je možné integrovat do vlastního software.

Klíčová slova

OCR, tištěné dokumenty, analýza rozložení stránky, automatický přepis textu, jazykový model, Python

Datum vzniku

20. 12. 2020

Umístění

https://github.com/DCGM/pero-ocr, pip https://pypi.org/project/pero-ocr/

Možnosti využití

K využití výsledku jiným subjektem je vždy nutné nabytí licence

Licenční poplatek

Poskytovatel licence na výsledek nepožaduje licenční poplatek

www

https://www.fit.vut.cz/research/product/666/

Dokumenty

User manual OCR.pdf

VUT

Fakulty

Vysokoškolské ústavy

Součásti

Software pro adaptabilní rozpoznávání textu starých tisků