Aplikace umělých neuronových sítí pro detekci malware v HTTPS komunikaci
Aplikace umělých neuronových sítí pro detekci malware v HTTPS komunikaci
bachelor thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/90449Identifiers
Study Information System: 190578
Collections
- Kvalifikační práce [11987]
Author
Advisor
Referee
Somol, Petr
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
General Computer Science
Department
Department of Software Engineering
Date of defense
6. 9. 2017
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
Umělé neuronové sítě, detekce malware, HTTPS data, podobnostní hledáníKeywords (English)
Artificial neural networks, malware detection, HTTPS traffic, similarity searchJelikož velké množství škodlivého softwaru používá internet, nabízí se možnost detekovat infikované počítače na základě kontroly síťové aktivity. Útočníci však skrývají obsah komunikace tím, že využívají šifrované pro- tokoly jako je například HTTPS, takže se při analýze síťové komunikace musíme spolehnout na metadata. Společnost Cisco nám poskytla dataset obsahující agregovaná metadata doplněná o informaci, zda daný vzorek ko- munikace obsahoval nežádoucí aktivitu. Tato práce se zabývá tím, jak naučit neuronové sítě na základě těchto metadat detekovat nežádoucí komunikaci. Srovnává jednotlivé architektury a také porovnává výsledky neuronových sítí s výsledky jiných metod strojového učení použitých našimi kolegy. Také se pokouší vytvořit zobrazení, které zobrazuje vzorky komunikace do pros- toru, kde vzorky škodlivé komunikace vytvořené jednou rodinou škodlivého softwaru vytvářejí klastry. Takové zobrazení by mohlo pomoci najít další počítače napadené virem na základě vzorku komunikace tohoto viru, a to i v případě, že tento virus není detekován detekčním systémem. 1
A huge proportion of modern malicious software uses Internet connec- tions. Therefore, it is possible to detect infected computers by inspecting network activity. Since attackers hide the content of communication by com- municating over encrypted protocols such as HTTPS, communication must be analysed purely on the basis of metadata. Cisco provided us a dataset containing aggregated metadata with additional information as to whether or not each sample contains malicious communication. This work trains neu- ral networks to distinguish between infected and benign samples, comparing different architectures of neural networks and providing a comparison with results achieved by different machine learning methods tried by colleagues. It also seeks to create a mapping which maps samples of communication into a space where different samples of malicious communication created by a sin- gle malware family form clusters. This may make it easier to find different computers infected by a virus with known behaviour, even when the virus cannot be detected by the detection system. 1
