Detail produktu

Systém pro analýzu struktury dokumentů

KOSTELNÍK, M. BENEŠ, K. HRADIŠ, M. VAŠKO, M.

Typ produktu

software

Abstrakt

Software poskytuje nástroj pro extrakci logických celků (novinových článků, inzerátů, slovníkových hesel, apod.) ze snímků stránek s textem. Jádrem nástroje je detekční model, který byl natrénován na pestrém mixu knižních, novinových a slovníkových stránek. Software je navržen pro jako aplikace pro příkazový řádek, jeho výstupem je standardní knihovnický formát pro popis stránek dokumentů.

Klíčová slova

logická segmentace, slabě strukturované dokumenty, analýza dokumentů

Datum vzniku

28. 12. 2023

Umístění

https://github.com/DCGM/semANT-TextBite, pip https://pypi.org/project/textbite/

Možnosti využití

K využití výsledku jiným subjektem je vždy nutné nabytí licence

Licenční poplatek

Poskytovatel licence na výsledek nepožaduje licenční poplatek

www

Dokumenty