Bachelor's Thesis

Data Import from Unstructured Data Sources

Author of thesis: Bc. Vojtěch Kučera

Acad. year: 2023/2024

Supervisor: Ing. Vladimír Bartík, Ph.D.

Reviewer: Ing. Ivana Burgetová, Ph.D.

Abstract:

This thesis focuses on data extraction from validation protocols in the PDF format. These protocols are generated by insurance providers. The thesis introduces the PDF format, some of the methods used for data extraction from files in the PDF format and describes the design and implementation of a tool for extraction of data from validation protocols. This tool was implemented in Python and uses user-editable finite state machines to achieve this task. The output of the program is a single file in one of the following formats: txt, csv, xlsx, xml, sql. The sql output is designed to save data to a database table utilized by STAPRO s.r.o.

Keywords:

PDF, extractor, data extraction, validation protocol, insurance provider, finite state machine, FSM, Python

Date of defence

12.06.2024

Date of publish

12.06.2027

Result of the defence

Defended (thesis was successfully defended)

znamkaCznamka

Grading

C

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C.

Topics for thesis defence

  1. Proč se ve Vašich automatech rozlišují koncové a nekoncové stavy? Jakým způsobem se ve výstupu nástroje projeví to, v jakém stavu automat ukončil svoji činnost?
  2. Co ve vašich automatech reprezentují koncové stavy? Chybové stavy?
  3. Proč vaše aplikace selhává na protokolech VZP?

Language of thesis

Czech

Faculty

Department

Study programme

Information Technology (BIT)

Composition of Committee

doc. Dr. Ing. Dušan Kolář (předseda)
Ing. Vladimír Bartík, Ph.D. (člen)
Ing. Jaroslav Dytrych, Ph.D. (člen)
doc. Mgr. Adam Rogalewicz, Ph.D. (člen)
Ing. Marcela Zachariášová, Ph.D. (člen)

Supervisor’s report
Ing. Vladimír Bartík, Ph.D.

Přístup pana Kučery během řešení práce hodnotím kladně, a také výsledná bakalářská práce je kvalitní. Navrhuji hodnocení stupněm B (velmi dobře). 

Evaluation criteria Verbal classification
Informace k zadání

Zadání vzniklo jako součást spolupráce FIT s firmou STAPRO. Cílem bylo prostudovat formát výkazů ze zdravotních pojišťoven, které jsou zejména ve formátu PDF a vytvořit nástroj, který bude provádět extrakci těchto dat do strukturované formy. Řešení je funkční a splňuje zadání. Student navíc přidal možnost modifikovat extraktor na základě případných změn ve formátu vstupního souboru.

Práce s literaturou

Většinu studijních materiálů si student vyhledal samostatně, k volbě materiálů nemám výhrady.

Aktivita během řešení, konzultace, komunikace

Student své řešení průběžně konzultoval jak se mnou, tak se zadavatelem.

Aktivita při dokončování

Implementace i technická zpráva byly dokončeny včas, vše bylo se mnou konzultováno.

Publikační činnost, ocenění
Points proposed by supervisor: 84
Display more

Grade proposed by supervisor: B

Reviewer’s report
Ing. Ivana Burgetová, Ph.D.

Předložená bakalářská práce sestává ze zdařilého, mírně nadprůměrného realizačního výstupu a slabší, poměrně krátké technické zprávy. Celkově se tak jedná o průměrnou bakalářskou práci, a proto navrhuji hodnocení stupněm C.

Evaluation criteria Verbal classification Points
Náročnost zadání

Evaluation level: průměrně obtížné zadání

Prezentační úroveň technické zprávy

Logická struktura technické zprávy je dobrá a jednotlivé kapitoly na sebe dobře navazují. Výhrady mám k rozsahům jednotlivých kapitol. Přestože charakter zadání této diplomové práce nevyžaduje rozsáhlý teoretický úvod práce, postrádám zde teorii týkající se konečných automatů, které jsou v práci využity. Jsou zmíněny až v kapitole 4 a jejich definice není kompletní. Dále postrádám kapitolu zmíněnou v předchozím bodě (knihovny pro extrakci textu z PDF dokumentů). Pochopitelnost textu v kapitole 4 by značně usnadnily vhodné UML diagramy (např. diagram tříd), které bohužel v práci chybí.

67
Formální úprava technické zprávy

Po jazykové a typografické stránce se jedná o průměrnou zprávu s obvyklým počtem překlepů, gramatických chyb a stylistických nedostatků.

79
Realizační výstup

Realizační výstup této bakalářské práce považuji za mírně nadprůměrný. Student vytvořil funkční nástroj, který umožní extrakci dat z PDF výkazů zdravotních pojišťoven. Na řešení oceňuji především to, že řešení umožňuje rekonfiguraci nebo doplnění nových konečných automatů, které jsou využity pro extrakci požadovaných informací. Nástroj tak není omezen pouze na aktuální formát PDF výkazů, ale může být rozšířen na nové formáty.
Lepšímu hodnocení brání to, že nebyl dořešen problém označený jako text inbleeding vyskytující se v protokolech jedné z uvažovaných pojišťoven.

86
Využitelnost výsledků

Jedná se o praktickou práci, která řeší problém automatické extrakce informací z PDF reportů zdravotních pojišťoven. Nástroj je použitelný v praxi a předpokládá se jeho využití firmou STAPRO.

Rozsah splnění požadavků zadání

Evaluation level: zadání splněno

Rozsah technické zprávy

Evaluation level: splňuje pouze minimální požadavky

Technická zpráva popisuje všechny podstatné aspekty návrhu a implementace vytvořeného nástroje. Postrádám zde ale především kapitolu věnující se popisu dostupných knihoven pro extrakci textu z PDF dokumentu a zdůvodnění výběru zvolené knihovny. Dále by text mohl obsahovat podrobnější informace z teorie konečných automatů, které jsou při implementaci nástroje využity, a vhodné UML diagramy, které by doplnily popis implementovaného nástroje.

Práce s literaturou

Seznam použité literatury není příliš obsáhlý, což odpovídá jednak studentovu pojetí řešení této práce (bez podrobnějšího průzkumu dostupných přístupů pro extrakci textu) a částečně také charakteru práce. Nicméně převzaté prvky jsou řádně odlišeny od vlastních výsledků a úvah.

69
Topics for thesis defence:
  1. Proč se ve Vašich automatech rozlišují koncové a nekoncové stavy? Jakým způsobem se ve výstupu nástroje projeví to, v jakém stavu automat ukončil svoji činnost?
Points proposed by reviewer: 76
Display more

Grade proposed by reviewer: C

Reasons for publication postponement

Publication of the final thesis has been postponed in compliance with the provisions of Section 47b (4) of Act No. 111/1998 Coll., on the Higher Education Institutions and on amendments and supplements to other acts, as amended.

The publication of the bachelor's thesis is in accordance with the provision of § 47b par. 4 of the Act no. 111/1998, about universities and about the change and supplementing other laws (Higher Education Act), as amended, delayed by 3 years. The reason for the delay of the publication is the protection of intellectual property and the fact that the thesis contains business secret in the sense of the relevant provisions of the Act no. 89/2012 Coll., Civil Code.