Efficient kNN classification of malware from HTTPS data
Efektivní kNN klasifikace malwaru z HTTPS dat
bakalářská práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/90345Identifikátory
SIS: 184381
Kolekce
- Kvalifikační práce [11987]
Autor
Vedoucí práce
Oponent práce
Galamboš, Leo
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Softwarové a datové inženýrství
Katedra / ústav / klinika
Katedra softwarového inženýrství
Datum obhajoby
6. 9. 2017
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
kNN klasifikace, MapReduce, HTTPS dataKlíčová slova (anglicky)
kNN classification, MapReduce, HTTPS dataJedním z důležitých úloh systémů pro detekci průniku je rozpoznání komunikace malwaru v počítačové síti. Tradiční metody detekce, které analyzují obsah paketů, přestávají být dostačující vzhledem k nárůstu použití šifrovaného protokolu HTTPS. Výzkumem však bylo prokázáno, že vysokoúrovňové informace o HTTPS spojení, například množství odeslaných a přijatých dat nebo délka požadavku, mohou být úspěšně využity k detekci vzorů chování malwaru. V této práci se zabýváme algoritmy k-NN, které mohou být využity k sestavení klasifikátoru detekujícím škodlivou komunikaci. Implementujeme metody aproximativního k-NN hledání s důrazem na zpracování vel- kých objemů vysokodimenzionálních dat, konkrétně tři distribuované postupy pomocí frameworku MapReduce a jeden centralizovaný postup. Následuje srovnání metod na datech obsahujících až 1000dimenzionální objekty podle škálovatelnosti, přesnosti hledání a výsledcích klasifikace.
An important task of Network Intrusion Detection Systems (NIDS) is to detect malign com- munication in a computer network traffic. The traditional detection approaches which analyze the content of network packets, are becoming insufficient with an increased usage of encrypted HTTPS protocol. The previous research shows, however, that the high-level properties of HTTPS commu- nication such as the duration of a request or the number of bytes sent/received from the client to the server may be successfully used to detect behavioral patterns of malware activity. We study approximate k-NN similarity joins as one of the methods to build a classifier recognizing malign communication. Three MapReduce-based and one centralized approximate k-NN join methods are reimplemented in order to support large volumes of high-dimensional data. Finally, we thoroughly evaluate all methods on different datasets containing vectors up to 1000 dimensions and compare multiple aspects concerning scalability, approximation precision and classification precision of each approach.
