Product detail

Systém pro analýzu struktury dokumentů

KOSTELNÍK, M. BENEŠ, K. HRADIŠ, M. VAŠKO, M.

Product type

software

Abstract

Software poskytuje nástroj pro extrakci logických celků (novinových článků, inzerátů, slovníkových hesel, apod.) ze snímků stránek s textem. Jádrem nástroje je detekční model, který byl natrénován na pestrém mixu knižních, novinových a slovníkových stránek. Software je navržen pro jako aplikace pro příkazový řádek, jeho výstupem je standardní knihovnický formát pro popis stránek dokumentů.

Keywords

logická segmentace, slabě strukturované dokumenty, analýza dokumentů

Create date

28. 12. 2023

Location

https://github.com/DCGM/semANT-TextBite, pip https://pypi.org/project/textbite/

Possibilities of use

K využití výsledku jiným subjektem je vždy nutné nabytí licence

Licence fee

Poskytovatel licence na výsledek nepožaduje licenční poplatek

www

Documents