Master's Thesis

Methods of Analysis and Detection of PDF Malware

Author of thesis: Ing. Ľuboš Bever

Acad. year: 2023/2024

Supervisor: doc. Dr. Ing. Dušan Kolář

Reviewer: Ing. Zbyněk Křivka, Ph.D.

Abstract:

Nowadays, malware is increasingly spread via PDF email attachments. These files attempt to deliver malware to the victim's device using social engineering. This work first identifies potential JavaScript threats to the Acrobat API. The gro of the thesis is a detailed analysis of 12 actual PDF file malware campaigns, studying also the propagation method, the prevalence of the samples and sometimes an in-depth analysis of the entire infection vector of the threat. More sophisticated campaigns have also been encountered, for optimal detection of which two extensions to the YARA modules have been developed - TLSH calculation and detection over /Launch actions. Several tools have been identified, analyzed, and detected to create such threats. A total of 24 classification and 115 detection YARA rules were created, all of which were successfully deployed in Avast Antivirus software.

Keywords:

Malware, PDF, E-mail attachments, Social engineering, JavaScript for Acrobat API, PDF malware creation tools, PDF malware detection, YARA, YARA rules, TLSH in YARA

Date of defence

17.06.2024

Date of publish

17.06.2027

Result of the defence

Defended (thesis was successfully defended)

znamkaAznamka

Grading

A

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných, např. ohledně výpočtu TLS hashe a konkrétní použité implementace, různých pravidel pro jeden typ útoku a množství použitých referenčních obrázků. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A - výborně.

Topics for thesis defence

  1. Ve vašich nových Yara pravidlech se velmi často vyskytují "makra" začínající TECHNIQUE_PDF_..., které pravděpodobně spouští v odpovídajícím PDF modulu specializovaný kód. Uvažoval jste, zda by některé techniky bylo možnost zapisovat základními konstrukty jazyka Yara? Které techniky by bylo možné nahradit a jakým způsobem?

Language of thesis

Slovak

Faculty

Department

Study programme

Information Technology and Artificial Intelligence (MITAI)

Specialization

Cybersecurity (NSEC)

Composition of Committee

doc. Dr. Ing. Petr Hanáček (předseda)
doc. Ing. Michal Bidlo, Ph.D. (člen)
doc. Mgr. Adam Rogalewicz, Ph.D. (člen)
doc. Ing. Petr Matoušek, Ph.D., M.A. (člen)
Mgr. Kamil Malinka, Ph.D. (člen)
Ing. Vladimír Veselý, Ph.D. (člen)

Supervisor’s report
doc. Dr. Ing. Dušan Kolář

Jedná se o náročnou práci, která naplnila všechna očekávání.

Evaluation criteria Verbal classification
Informace k zadání

Diplomová práce se vymyká tradičním pracem. Její náročnost spočívá v hlubokém studiu a porozumění možností skriptování ve formátu PDF a možnostech zneužití těchto skriptů pro tvorbu malware. Následně, analýze zachycených vzorků s potenciálními hrozbami, jejich klasifikaci. Zadání je splněno.

Aktivita při dokončování

Student pracoval průběžně, řadu dílčích cílů dosáhl v předstihu. Definitivní podobu práce jsme probrali, ale samotný text už jsem neviděl. Nicméně, díky průběžným konzultacím to nepovažuji za závažné.

Publikační činnost, ocenění

Vzhledem k charakteru práce žádná/é.

Práce s literaturou

Student si získával všechny podklady prakticky sám tak, aby plnil dohodnuté cíle.

Aktivita během řešení, konzultace, komunikace

Aktivita během celého roku byla příkladná. Ve všech směrech.

Points proposed by supervisor: 95
Display more

Grade proposed by supervisor: A

Reviewer’s report
Ing. Zbyněk Křivka, Ph.D.

Velmi pěkně splněné ambiciózní zadání, které kombinuje práci analytika (až skoro průzkumníka nových typů malware v PDF) a programátora analytických nástrojů. Text je informačně velmi bohatý a kvalitní i po formální stránce, takže hodnotím Výborně/A.

Evaluation criteria Verbal classification Points
Rozsah splnění požadavků zadání

Evaluation level: zadání splněno

Rozsah technické zprávy

Evaluation level: přesahuje obvyklé rozmezí

Rozsah technické zprávy spíše překračuje maximální rozsah, protože rozsah provedené práce byl nadstandardní. Některé části byly přesunuty do příloh, kde například detailní popis struktury formátu PDF (příloha E) je sám o sobě velmi zajímavý a dobře zpracovaný.

Prezentační úroveň technické zprávy

Práce má bezesporu logickou strukturu a velmi dobrou provázanost jednotlivých kapitol. Výjimečně jsem narazil na drobné nedostatky jako zkratku používanou dříve, než došlo k její definici (zkratka FP je definována až na str. 93). Jako drobnou nevýhodu rozsáhlého textu vidím nutnost přílišného zkrácení úvodních částí, takže základní orientace v tématu malware je nezbytná. Z podobných důvodů je věnováno poměrně málo prostoru samotné implementaci a integraci nástrojů, které student jistě provedl a bere to spíše jako samozřejmost.

90
Formální úprava technické zprávy

Ač je text psán slovensky, a tudíž nemohu hodnotit jazykovou stránku zcela sebevědomě, tak jsem v textu nenašel téměř žádné pravopisné chyby (až na pár chybějících čárek a několik překlepů). Typograficky je text také velmi kvalitní. Jedinou výtku mám u sazby výpisů kódu, které jsou často zalomeny koncem stránky, ale čitelnost to naštěstí nenarušuje.

95
Práce s literaturou

I přestože student analyzoval nejaktuálnější hrozby, tak zvládl nastudovat také velké množství literatury (39 vseměs kvalitních zdrojů), a tu vhodně v textu využít. Vedle toho práce obsahuje desítky poznámek pod čarou na další programátorské a datové zdroje.

100
Realizační výstup

Realizační výstup využívá a rozšiřuje existující nástroje firmy Gen, což kladlo časové nároky na zorientování se v cizím kódu, schopnosti jej opravit a rozšířit. Kromě vytvoření sady YARA pravidel, což byl formální výstup analytické práce studenta, byl též rozšířen nástroj YARA o možnost stanovení míry podobnosti binárních posloupností (např. podobnost obrázků). Díky pečlivé analýze popisu formátu PDF byl opraven a rozšířen také existující modul PDF. Soubory zcela vytvořené studentem mají řádně vyplněnou hlavičku. Soubory, které student pouze modifikoval, jsou na médiu pouze jako úryvky.

90
Využitelnost výsledků

Výsledky již byly využity firmou Gen na ochranu uživatelů. Přehled počtu ochráněných uživatelů studentem průběžně vytvářenými Yara pravidly a nástroji je viditelná na straně 95 (dopad na desetitisíce uživatelů).

Náročnost zadání

Evaluation level: značně obtížné zadání

Zadání je náročné jednak po studijní, a především analytické stránce. Po zorientování se v technikách malware a detailním nastudování zákeřností formátu PDF bylo třeba provést často jistě zdlouhavou analytickou práci při studiu aktuálních malware šířených ve formátu PDF. Z hlediska implementace a využití výsledků v praxi bylo třeba zajistit integraci do nástrojů firmy Gen (dříve Avast).

Topics for thesis defence:
  1. Ve vašich nových Yara pravidlech se velmi často vyskytují "makra" začínající TECHNIQUE_PDF_..., které pravděpodobně spouští v odpovídajícím PDF modulu specializovaný kód. Uvažoval jste, zda by některé techniky bylo možnost zapisovat základními konstrukty jazyka Yara? Které techniky by bylo možné nahradit a jakým způsobem?
Points proposed by reviewer: 96
Display more

Grade proposed by reviewer: A

Reasons for publication postponement

Publication of the final thesis has been postponed in compliance with the provisions of Section 47b (4) of Act No. 111/1998 Coll., on the Higher Education Institutions and on amendments and supplements to other acts, as amended.