Aplikace umělých neuronových sítí pro detekci malware v HTTPS komunikaci
Aplikace umělých neuronových sítí pro detekci malware v HTTPS komunikaci
bakalářská práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/90449Identifikátory
SIS: 190578
Kolekce
- Kvalifikační práce [11196]
Autor
Vedoucí práce
Oponent práce
Somol, Petr
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Obecná informatika
Katedra / ústav / klinika
Katedra softwarového inženýrství
Datum obhajoby
6. 9. 2017
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
Umělé neuronové sítě, detekce malware, HTTPS data, podobnostní hledáníKlíčová slova (anglicky)
Artificial neural networks, malware detection, HTTPS traffic, similarity searchJelikož velké množství škodlivého softwaru používá internet, nabízí se možnost detekovat infikované počítače na základě kontroly síťové aktivity. Útočníci však skrývají obsah komunikace tím, že využívají šifrované pro- tokoly jako je například HTTPS, takže se při analýze síťové komunikace musíme spolehnout na metadata. Společnost Cisco nám poskytla dataset obsahující agregovaná metadata doplněná o informaci, zda daný vzorek ko- munikace obsahoval nežádoucí aktivitu. Tato práce se zabývá tím, jak naučit neuronové sítě na základě těchto metadat detekovat nežádoucí komunikaci. Srovnává jednotlivé architektury a také porovnává výsledky neuronových sítí s výsledky jiných metod strojového učení použitých našimi kolegy. Také se pokouší vytvořit zobrazení, které zobrazuje vzorky komunikace do pros- toru, kde vzorky škodlivé komunikace vytvořené jednou rodinou škodlivého softwaru vytvářejí klastry. Takové zobrazení by mohlo pomoci najít další počítače napadené virem na základě vzorku komunikace tohoto viru, a to i v případě, že tento virus není detekován detekčním systémem. 1
A huge proportion of modern malicious software uses Internet connec- tions. Therefore, it is possible to detect infected computers by inspecting network activity. Since attackers hide the content of communication by com- municating over encrypted protocols such as HTTPS, communication must be analysed purely on the basis of metadata. Cisco provided us a dataset containing aggregated metadata with additional information as to whether or not each sample contains malicious communication. This work trains neu- ral networks to distinguish between infected and benign samples, comparing different architectures of neural networks and providing a comparison with results achieved by different machine learning methods tried by colleagues. It also seeks to create a mapping which maps samples of communication into a space where different samples of malicious communication created by a sin- gle malware family form clusters. This may make it easier to find different computers infected by a virus with known behaviour, even when the virus cannot be detected by the detection system. 1