bakalářská práce
Import dat z nestrukturovaných datových zdrojů
Autor práce: Bc. Vojtěch Kučera
Ak. rok: 2023/2024
Vedoucí: Ing. Vladimír Bartík, Ph.D.
Oponent: Ing. Ivana Burgetová, Ph.D.
Abstrakt:Tato práce se zaměřuje na extrakci dat z validačních protokolů ve formátu PDF, které jsou vytvářeny zdravotními pojišťovnami. Práce představuje souborový formát PDF, některé metody pro extrakci dat ze souborů ve formátu PDF a popisuje návrh a implementaci nástroje pro extrakci dat z validačních protokolů. Tento nástroj byl implementován v programovacím jazyce Python a funguje na principu konečných stavových automatů, které jsou konfigurovatelné uživatelem. Výstupem programu je jeden soubor ve formátu txt, csv, xlsx, xml, nebo sql. Výstup ve formátu sql je určen k ukládání dat do databázové tabulky firmy STAPRO s.r.o.
Klíčová slova:PDF, extraktor, extrakce dat, validační protokol, pojišťovna, konečný stavový automat, FSM, Python
obhájeno (práce byla úspěšně obhájena)
znamkaCznamka
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C.
- Proč se ve Vašich automatech rozlišují koncové a nekoncové stavy? Jakým způsobem se ve výstupu nástroje projeví to, v jakém stavu automat ukončil svoji činnost?
- Co ve vašich automatech reprezentují koncové stavy? Chybové stavy?
- Proč vaše aplikace selhává na protokolech VZP?
Informační technologie (BIT)
doc. Dr. Ing. Dušan Kolář (předseda)
Ing. Vladimír Bartík, Ph.D. (člen)
Ing. Jaroslav Dytrych, Ph.D. (člen)
doc. Mgr. Adam Rogalewicz, Ph.D. (člen)
Ing. Marcela Zachariášová, Ph.D. (člen)
Přístup pana Kučery během řešení práce hodnotím kladně, a také výsledná bakalářská práce je kvalitní. Navrhuji hodnocení stupněm B (velmi dobře).
Kritérium hodnocení |
Slovní hodnocení |
Informace k zadání |
Zadání vzniklo jako součást spolupráce FIT s firmou STAPRO. Cílem bylo prostudovat formát výkazů ze zdravotních pojišťoven, které jsou zejména ve formátu PDF a vytvořit nástroj, který bude provádět extrakci těchto dat do strukturované formy. Řešení je funkční a splňuje zadání. Student navíc přidal možnost modifikovat extraktor na základě případných změn ve formátu vstupního souboru. |
Práce s literaturou |
Většinu studijních materiálů si student vyhledal samostatně, k volbě materiálů nemám výhrady. |
Aktivita během řešení, konzultace, komunikace |
Student své řešení průběžně konzultoval jak se mnou, tak se zadavatelem. |
Aktivita při dokončování |
Implementace i technická zpráva byly dokončeny včas, vše bylo se mnou konzultováno. |
Publikační činnost, ocenění |
|
Výsledný počet bodů navržený vedoucím:
84
Zobrazit víceZnámka navržená vedoucím: B
Předložená bakalářská práce sestává ze zdařilého, mírně nadprůměrného realizačního výstupu a slabší, poměrně krátké technické zprávy. Celkově se tak jedná o průměrnou bakalářskou práci, a proto navrhuji hodnocení stupněm C.
Kritérium hodnocení |
Slovní hodnocení |
Body |
Náročnost zadání |
Stupeň hodnocení: průměrně obtížné zadání |
|
Prezentační úroveň technické zprávy |
Logická struktura technické zprávy je dobrá a jednotlivé kapitoly na sebe dobře navazují. Výhrady mám k rozsahům jednotlivých kapitol. Přestože charakter zadání této diplomové práce nevyžaduje rozsáhlý teoretický úvod práce, postrádám zde teorii týkající se konečných automatů, které jsou v práci využity. Jsou zmíněny až v kapitole 4 a jejich definice není kompletní. Dále postrádám kapitolu zmíněnou v předchozím bodě (knihovny pro extrakci textu z PDF dokumentů). Pochopitelnost textu v kapitole 4 by značně usnadnily vhodné UML diagramy (např. diagram tříd), které bohužel v práci chybí. |
67 |
Formální úprava technické zprávy |
Po jazykové a typografické stránce se jedná o průměrnou zprávu s obvyklým počtem překlepů, gramatických chyb a stylistických nedostatků. |
79 |
Realizační výstup |
Realizační výstup této bakalářské práce považuji za mírně nadprůměrný. Student vytvořil funkční nástroj, který umožní extrakci dat z PDF výkazů zdravotních pojišťoven. Na řešení oceňuji především to, že řešení umožňuje rekonfiguraci nebo doplnění nových konečných automatů, které jsou využity pro extrakci požadovaných informací. Nástroj tak není omezen pouze na aktuální formát PDF výkazů, ale může být rozšířen na nové formáty. Lepšímu hodnocení brání to, že nebyl dořešen problém označený jako text inbleeding vyskytující se v protokolech jedné z uvažovaných pojišťoven. |
86 |
Využitelnost výsledků |
Jedná se o praktickou práci, která řeší problém automatické extrakce informací z PDF reportů zdravotních pojišťoven. Nástroj je použitelný v praxi a předpokládá se jeho využití firmou STAPRO. |
|
Rozsah splnění požadavků zadání |
Stupeň hodnocení: zadání splněno |
|
Rozsah technické zprávy |
Stupeň hodnocení: splňuje pouze minimální požadavky Technická zpráva popisuje všechny podstatné aspekty návrhu a implementace vytvořeného nástroje. Postrádám zde ale především kapitolu věnující se popisu dostupných knihoven pro extrakci textu z PDF dokumentu a zdůvodnění výběru zvolené knihovny. Dále by text mohl obsahovat podrobnější informace z teorie konečných automatů, které jsou při implementaci nástroje využity, a vhodné UML diagramy, které by doplnily popis implementovaného nástroje. |
|
Práce s literaturou |
Seznam použité literatury není příliš obsáhlý, což odpovídá jednak studentovu pojetí řešení této práce (bez podrobnějšího průzkumu dostupných přístupů pro extrakci textu) a částečně také charakteru práce. Nicméně převzaté prvky jsou řádně odlišeny od vlastních výsledků a úvah. |
69 |
Otázky k obhajobě:
- Proč se ve Vašich automatech rozlišují koncové a nekoncové stavy? Jakým způsobem se ve výstupu nástroje projeví to, v jakém stavu automat ukončil svoji činnost?
Výsledný počet bodů navržený oponentem:
76
Zobrazit víceZnámka navržená oponentem: C
Důvod odložení zveřejnění
Zveřejnění bakalářské práce je v souladu s ustanovením § 47b odst. 4 zákona č. 111/1998 Sb., o vysokých školách a o změně a doplnění dalších zákonů (zákon o vysokých školách), ve znění pozdějších předpisů, odloženo o 3 roky. Důvodem odložení zveřejnění je ochrana duševního vlastnictví a skutečnost, že bakalářská práce obsahuje obchodní tajemství ve smyslu příslušných ustanovení zákona č. 89/2012 Sb., občanského zákoníku.
Odpovědnost: Mgr. et Mgr. Hana Odstrčilová