Master's Thesis

Automatic Validations of Data From Security Incidents

Author of thesis: Ing. Tomáš Julina

Acad. year: 2022/2023

Supervisor: Ing. Patrik Holop

Reviewer: Mgr. Kamil Malinka, Ph.D.

Abstract:

The main goal of this master’s thesis is to design and develop a system, which would allow the automatic monitoring and validation of data from security incidents. The presented system deals with two main types of validations. The first type is called static validations. In this part of the system, the data format is validated. In case of an error, the system automatically reports found issues, including useful metadata that can be helpful when dealing with the fixes. The second part of the system deals with monitoring of trends and anomalies in historical data. The proposed system will help Avast to improve data quality and confidence in the data while simultaneously providing a better insight into the data.

Keywords:

Big Data, data validity, GCP, Hadoop, PySpark, Python, Google Cloud Platform

Date of defence

20.06.2023

Date of publish

19.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaAznamka

Grading

A

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Topics for thesis defence

  1. V případě, že provoz ukáže potřebu modifikací, jaký bude např.  proces pro přidávání dalších dimenzí v agregovaném zpracování, nebo proces modifikace velikosti okna?
  2. Jak by operátor systému zjistil, že je potřeba přidání nové dimenze?

Language of thesis

Czech

Faculty

Department

Study programme

Information Technology and Artificial Intelligence (MITAI)

Specialization

Cybersecurity (NSEC)

Composition of Committee

doc. Ing. Vladimír Drábek, CSc. (člen)
Ing. Ondřej Lengál, Ph.D. (člen)
Mgr. Kamil Malinka, Ph.D. (člen)
Ing. Ondřej Kanich, Ph.D. (člen)
Mgr. Ing. Pavel Očenášek, Ph.D. (člen)
doc. Ing. František Zbořil, CSc. (předseda)

Supervisor’s report
Ing. Patrik Holop

Študent si úspešne naštudoval danú problematiku a prakticky aplikoval získané znalosti pri vývoji systému pre validáciu dát, detekciu trendov a anomálií z dát popisujúcich bezpečnostné incidenty. Validované dáta sa využívajú nielen pri publikovaní v oblasti Threat Intelligence, ale sú i vstupom pre systémy spoločnosti zodpovedné za ochranu užívateľov. Validita a zmeny v pozorovaných dátach sú dôležitou oblasťou, pričom implementovaný systém bude využívaný dátovým tímom spoločnosti. Už pri úvodnej analýze dát študent identifikoval prípadné nedostatky v aktuálnych procesoch, zoznam ktorých bol rozšírený za pomoci implementovaného riešenia a bol nahlásený spoločnosti pre zlepšenie.

Z vyššie spomenutých dôvodov navrhujem hodnotenie A.

Evaluation criteria Verbal classification
Informace k zadání

Zadanie malo náročnejší charakter. Študent sa musel zoznámiť s problematikou Big Data, validovaním dát a metódami detekcie trendov a anomálií. Ďalej sa študent zoznámil s praktickým využitím naštudovaných procesov vo firemnom prostredí pri práci s dátami pre popis bezpečnostných incidentov. Za využitia získaných znalostí navrhol a implementoval systém, ktorý je schopný automaticky validovať spracovávané dáta, detegovať trendy a anomálie z pohľadu rôznych metrík. Experimentáciou vyhodnotil prínosy svojej práce. Všetky body zadania boli úspešne splnené.

Práce s literaturou

Študent využíval ako zdroje odporučené vedúcim a odborným konzultantom, tak i aktívne vyhľadával relevantné zdroje samostatne. Rozsah a zloženie využitej literatúry považujem za dostatočný.

Aktivita během řešení, konzultace, komunikace

Študent svoj postup pravidelne prezentoval a konzultoval riešenie ako s vedúcim, tak i odborným konzultantom. Na schôdzky bol vždy pripravený, k riešeniu pristupoval aktívne počas celého školského roka.

Aktivita při dokončování

Technická dokumentácia i realizačný výstup boli dokončené s dostatočným predstihom. Všetky pripomienky boli zapracované.

Publikační činnost, ocenění
Points proposed by supervisor: 95
Display more

Grade proposed by supervisor: A

Reviewer’s report
Mgr. Kamil Malinka, Ph.D.

Práce je výborným příkladem uchopení zadaného problému a jeho komplexního řešení na všech úrovních od výběru technologie, analýzy, implementace až po dotažení do produkce a nasazení, vč. závěrečného vyhodnocení běhu. Výsledky provozního běhu ukazují funkčnost systému, kdy se reálně podařilo detekovat poměrně velké množství chyb. Nástroj již tak plní svůj účel.


Vzhledem k dopadu práce a kvalitě zpracování ji doporučuji komisi jako vhodného kandidáta na některou z udělovaných cen.

Evaluation criteria Verbal classification Points
Náročnost zadání

Evaluation level: průměrně obtížné zadání

Jedná se o implementační DP s jasně ohraničeným rámcem.

Rozsah splnění požadavků zadání

Evaluation level: zadání splněno a práce obsahuje podstatná rozšíření

Práce splnila všechny body zadání ve výborné kvalitě. Jako činnosti nad rámec zadání hodnotím provedenou procesní analýzu, která je velmi důkladná a zahrnuje i reporting nalezených problémů, experimentální ověření vhodné metody pro detekci anomálií a dále pak i nasazení řešení do produkce.

Rozsah technické zprávy

Evaluation level: přesahuje obvyklé rozmezí

Rozsah technické zprávy se blíží maximálnímu rozsahu, nicméně všechny části jsou relevantní a informačně bohaté a odpovídají rozsahu zpracování tématu.

 

Prezentační úroveň technické zprávy

Logická struktura práce je na výborné úrovni. Autor systematickým způsobem představuje řešenou problematiku, postupně představuje použité technologie a zdůvodňuje jednotlivé architektonické volby. Detailně jsou popsány možné přístupy a technologie použitelné pro validování dat. Sledovaná data jsou velmi dobře popsána. Volbě finálních technologií předchází jejich experimentální ověření. Provedená analýza řešeného problému je důkladná a velmi dobře navržená. Jsou detailně specifikovány požadavky na výsledné řešení a je i dobře okomentováno jejich splnění. Návrh je komplexní a zahrnuje i začlenění řešení do procesů firmy. Jediné, co by se dalo vytknout je stručné popsání ručních operací a kontrol, které se prováděly přes nasazením nástroje a dále jen stručné zhodnocení technologií v kap 2 a 3.  

95
Formální úprava technické zprávy

Jazyková a stylistická stránka práce i úroveň typografie je na výborné úrovni. Drobnou výtku mám k viditelně jiné kvalitě tisku u stránek, které obsahují obrázky.

95
Práce s literaturou

Práce obsahuje nadstandardní množství odkazovaných zdrojů, které jsou však relevantní tématu a vhodně vybrány. 

95
Realizační výstup

Realizační výstup je na výborné úrovni. Implementace důsledně odpovídá návrhu. Část výsledného řešení je již nasazena v produkci a již přinesla první výsledky, kdy výsledky kontrol odhalily velké množství nekonzistencí, které jsou již opravovány. Celý řešení je zároveň zaintegrováno do interního pracovního prostředí firmy. Součástí je povedená grafická vizualizace, reporting a archivace výsledků. Součástí výstupu jsou i provedené experimenty, které pomohly zvolit vhodné metody pro detekci anomálií, tak aby byly co nejefektivnější nad reálnými daty. 

95
Využitelnost výsledků

Realizační výstup je již používán v praxi a nahrazuje dosavadní manuální kontroly. Reálně již úspěšně nalezl nekonzistence v datech.  

Topics for thesis defence:
  1. V případě, že provoz ukáže potřebu modifikací, jaký bude např. proces pro přidávání dalších dimenzí v agregovaném zpracování, nebo proces modifikace velikosti okna?
Points proposed by reviewer: 95
Display more

Grade proposed by reviewer: A

Reasons for publication postponement

Publication of the final thesis has been postponed in compliance with the provisions of Section 47b (4) of Act No. 111/1998 Coll., on the Higher Education Institutions and on amendments and supplements to other acts, as amended.