bakalářská práce

Import dat z nestrukturovaných datových zdrojů

Autor práce: Bc. Vojtěch Kučera

Ak. rok: 2023/2024

Vedoucí: Ing. Vladimír Bartík, Ph.D.

Oponent: Ing. Ivana Burgetová, Ph.D.

Abstrakt:

Tato práce se zaměřuje na extrakci dat z validačních protokolů ve formátu PDF, které jsou vytvářeny zdravotními pojišťovnami. Práce představuje souborový formát PDF, některé metody pro extrakci dat ze souborů ve formátu PDF a popisuje návrh a implementaci nástroje pro extrakci dat z validačních protokolů. Tento nástroj byl implementován v programovacím jazyce Python a funguje na principu konečných stavových automatů, které jsou konfigurovatelné uživatelem. Výstupem programu je jeden soubor ve formátu txt, csv, xlsx, xml, nebo sql. Výstup ve formátu sql je určen k ukládání dat do databázové tabulky firmy STAPRO s.r.o.

Klíčová slova:

PDF, extraktor, extrakce dat, validační protokol, pojišťovna, konečný stavový automat, FSM, Python

Termín obhajoby

12.06.2024

Práce bude zveřejněna

12.06.2027

Výsledek obhajoby

obhájeno (práce byla úspěšně obhájena)

znamkaCznamka

Klasifikace

C

Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C.

Otázky k obhajobě

  1. Proč se ve Vašich automatech rozlišují koncové a nekoncové stavy? Jakým způsobem se ve výstupu nástroje projeví to, v jakém stavu automat ukončil svoji činnost?
  2. Co ve vašich automatech reprezentují koncové stavy? Chybové stavy?
  3. Proč vaše aplikace selhává na protokolech VZP?

Jazyk práce

čeština

Fakulta

Ústav

Studijní program

Informační technologie (BIT)

Složení komise

doc. Dr. Ing. Dušan Kolář (předseda)
Ing. Vladimír Bartík, Ph.D. (člen)
Ing. Jaroslav Dytrych, Ph.D. (člen)
doc. Mgr. Adam Rogalewicz, Ph.D. (člen)
Ing. Marcela Zachariášová, Ph.D. (člen)

Přístup pana Kučery během řešení práce hodnotím kladně, a také výsledná bakalářská práce je kvalitní. Navrhuji hodnocení stupněm B (velmi dobře). 

Kritérium hodnocení Slovní hodnocení
Informace k zadání

Zadání vzniklo jako součást spolupráce FIT s firmou STAPRO. Cílem bylo prostudovat formát výkazů ze zdravotních pojišťoven, které jsou zejména ve formátu PDF a vytvořit nástroj, který bude provádět extrakci těchto dat do strukturované formy. Řešení je funkční a splňuje zadání. Student navíc přidal možnost modifikovat extraktor na základě případných změn ve formátu vstupního souboru.

Práce s literaturou

Většinu studijních materiálů si student vyhledal samostatně, k volbě materiálů nemám výhrady.

Aktivita během řešení, konzultace, komunikace

Student své řešení průběžně konzultoval jak se mnou, tak se zadavatelem.

Aktivita při dokončování

Implementace i technická zpráva byly dokončeny včas, vše bylo se mnou konzultováno.

Publikační činnost, ocenění
Výsledný počet bodů navržený vedoucím: 84
Zobrazit více

Známka navržená vedoucím: B

Předložená bakalářská práce sestává ze zdařilého, mírně nadprůměrného realizačního výstupu a slabší, poměrně krátké technické zprávy. Celkově se tak jedná o průměrnou bakalářskou práci, a proto navrhuji hodnocení stupněm C.

Kritérium hodnocení Slovní hodnocení Body
Náročnost zadání

Stupeň hodnocení: průměrně obtížné zadání

Prezentační úroveň technické zprávy

Logická struktura technické zprávy je dobrá a jednotlivé kapitoly na sebe dobře navazují. Výhrady mám k rozsahům jednotlivých kapitol. Přestože charakter zadání této diplomové práce nevyžaduje rozsáhlý teoretický úvod práce, postrádám zde teorii týkající se konečných automatů, které jsou v práci využity. Jsou zmíněny až v kapitole 4 a jejich definice není kompletní. Dále postrádám kapitolu zmíněnou v předchozím bodě (knihovny pro extrakci textu z PDF dokumentů). Pochopitelnost textu v kapitole 4 by značně usnadnily vhodné UML diagramy (např. diagram tříd), které bohužel v práci chybí.

67
Formální úprava technické zprávy

Po jazykové a typografické stránce se jedná o průměrnou zprávu s obvyklým počtem překlepů, gramatických chyb a stylistických nedostatků.

79
Realizační výstup

Realizační výstup této bakalářské práce považuji za mírně nadprůměrný. Student vytvořil funkční nástroj, který umožní extrakci dat z PDF výkazů zdravotních pojišťoven. Na řešení oceňuji především to, že řešení umožňuje rekonfiguraci nebo doplnění nových konečných automatů, které jsou využity pro extrakci požadovaných informací. Nástroj tak není omezen pouze na aktuální formát PDF výkazů, ale může být rozšířen na nové formáty.
Lepšímu hodnocení brání to, že nebyl dořešen problém označený jako text inbleeding vyskytující se v protokolech jedné z uvažovaných pojišťoven.

86
Využitelnost výsledků

Jedná se o praktickou práci, která řeší problém automatické extrakce informací z PDF reportů zdravotních pojišťoven. Nástroj je použitelný v praxi a předpokládá se jeho využití firmou STAPRO.

Rozsah splnění požadavků zadání

Stupeň hodnocení: zadání splněno

Rozsah technické zprávy

Stupeň hodnocení: splňuje pouze minimální požadavky

Technická zpráva popisuje všechny podstatné aspekty návrhu a implementace vytvořeného nástroje. Postrádám zde ale především kapitolu věnující se popisu dostupných knihoven pro extrakci textu z PDF dokumentu a zdůvodnění výběru zvolené knihovny. Dále by text mohl obsahovat podrobnější informace z teorie konečných automatů, které jsou při implementaci nástroje využity, a vhodné UML diagramy, které by doplnily popis implementovaného nástroje.

Práce s literaturou

Seznam použité literatury není příliš obsáhlý, což odpovídá jednak studentovu pojetí řešení této práce (bez podrobnějšího průzkumu dostupných přístupů pro extrakci textu) a částečně také charakteru práce. Nicméně převzaté prvky jsou řádně odlišeny od vlastních výsledků a úvah.

69
Otázky k obhajobě:
  1. Proč se ve Vašich automatech rozlišují koncové a nekoncové stavy? Jakým způsobem se ve výstupu nástroje projeví to, v jakém stavu automat ukončil svoji činnost?
Výsledný počet bodů navržený oponentem: 76
Zobrazit více

Známka navržená oponentem: C

Důvod odložení zveřejnění

Zveřejnění bakalářské práce je v souladu s ustanovením § 47b odst. 4 zákona č. 111/1998 Sb., o vysokých školách a o změně a doplnění dalších zákonů (zákon o vysokých školách), ve znění pozdějších předpisů, odloženo o 3 roky. Důvodem odložení zveřejnění je ochrana duševního vlastnictví a skutečnost, že bakalářská práce obsahuje obchodní tajemství ve smyslu příslušných ustanovení zákona č. 89/2012 Sb., občanského zákoníku.

Odpovědnost: Mgr. et Mgr. Hana Odstrčilová