Product detail

Software pro adaptabilní rozpoznávání textu starých tisků

HRADIŠ, M. KIŠŠ, M. KODYM, O. KOHÚT, J. BENEŠ, K. BUCHAL, P.

Product type

software

Abstract

Tento Python balíček zapouzdřuje celý řetězec OCR včetně, analýzy rozložení stránky, detekci řádků, rozpoznání textu a dekódování textu s využitím jazykového modelu. Software je zaměřený na zpracování nekvalitních dokumentů (například digitalizovaných z mikrofilmů). Balíček poskytuje nástroj spustitelný z příkazové řádky i třídu, kterou je možné integrovat do vlastního software.

Keywords

OCR, tištěné dokumenty, analýza rozložení stránky, automatický přepis textu, jazykový model, Python

Create date

20. 12. 2020

Location

https://github.com/DCGM/pero-ocr, pip https://pypi.org/project/pero-ocr/

Possibilities of use

K využití výsledku jiným subjektem je vždy nutné nabytí licence

Licence fee

Poskytovatel licence na výsledek nepožaduje licenční poplatek

www

Documents