Aplikace umělých neuronových sítí pro detekci malware v HTTPS komunikaci

Bodnár, Jan

Aplikace umělých neuronových sítí pro detekci malware v HTTPS komunikaci

bakalářská práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (481.8Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/90449

Identifikátory

SIS: 190578

Oponent práce

Somol, Petr

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Obecná informatika

Katedra / ústav / klinika

Katedra softwarového inženýrství

Datum obhajoby

6. 9. 2017

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Angličtina

Známka

Výborně

Klíčová slova (česky)

Umělé neuronové sítě, detekce malware, HTTPS data, podobnostní hledání

Klíčová slova (anglicky)

Artificial neural networks, malware detection, HTTPS traffic, similarity search

Jelikož velké množství škodlivého softwaru používá internet, nabízí se možnost detekovat infikované počítače na základě kontroly síťové aktivity. Útočníci však skrývají obsah komunikace tím, že využívají šifrované pro- tokoly jako je například HTTPS, takže se při analýze síťové komunikace musíme spolehnout na metadata. Společnost Cisco nám poskytla dataset obsahující agregovaná metadata doplněná o informaci, zda daný vzorek ko- munikace obsahoval nežádoucí aktivitu. Tato práce se zabývá tím, jak naučit neuronové sítě na základě těchto metadat detekovat nežádoucí komunikaci. Srovnává jednotlivé architektury a také porovnává výsledky neuronových sítí s výsledky jiných metod strojového učení použitých našimi kolegy. Také se pokouší vytvořit zobrazení, které zobrazuje vzorky komunikace do pros- toru, kde vzorky škodlivé komunikace vytvořené jednou rodinou škodlivého softwaru vytvářejí klastry. Takové zobrazení by mohlo pomoci najít další počítače napadené virem na základě vzorku komunikace tohoto viru, a to i v případě, že tento virus není detekován detekčním systémem. 1

Abstrakt (anglicky)

A huge proportion of modern malicious software uses Internet connec- tions. Therefore, it is possible to detect infected computers by inspecting network activity. Since attackers hide the content of communication by com- municating over encrypted protocols such as HTTPS, communication must be analysed purely on the basis of metadata. Cisco provided us a dataset containing aggregated metadata with additional information as to whether or not each sample contains malicious communication. This work trains neu- ral networks to distinguish between infected and benign samples, comparing different architectures of neural networks and providing a comparison with results achieved by different machine learning methods tried by colleagues. It also seeks to create a mapping which maps samples of communication into a space where different samples of malicious communication created by a sin- gle malware family form clusters. This may make it easier to find different computers infected by a virus with known behaviour, even when the virus cannot be detected by the detection system. 1

Citace dokumentu

Metadata

Zobrazit celý záznam