Show simple item record

Extrakce příznaků z programových balíčků systému Android a jejich použití ve strojovém učení pro klasifikaci malware
dc.contributor.advisorBálek, Martin
dc.creatorSmrž, Dominik
dc.date.accessioned2017-09-27T09:37:08Z
dc.date.available2017-09-27T09:37:08Z
dc.date.issued2017
dc.identifier.urihttp://hdl.handle.net/20.500.11956/90466
dc.description.abstractIn this Thesis, we propose a machine-learning based classification algorithm of applications for a popular mobile phone operating system Android that can dis- tinguish malicious samples from benign ones. Feature extraction for the machine learning is based on static analysis of the application's bytecode with focus on API and method calls. We show various ways to transform the most frequent API and method calls into numeric (histogram-based) features. We further examine the specifics of the extracted features and discuss their importance. The dataset used for experiments in this Thesis contains more than 200,000 samples with approxi- mately half of them malicious and half of them benign. Further, multiple machine learning algorithms are examined and their performance is evaluated. The size of our dataset prevents overfitting and hence provides a reliable basis for training of classification models. The results of the experiments show that the proposed algo- rithm achieves very low false positive rate under 2.9% while preserving specificity over 93.6%. 1en_US
dc.description.abstractV této práci navrhujeme klasifikační algoritmus založený na metodách stro- jového učení pro aplikace na populární operační systém Android, který má za cíl rozlišovat škodlivé aplikace od nezávadných. Extrakce příznaků pro strojové učení je založena na statické analýze bajtkódu se zaměřením na API volání a volání metod. Ukazujeme různé přístupy jak z nejčastějších API volání vytvořit seznam číselných příznaků. Dále zkoumáme specifika extrahovaných příznaků a jejich důležitost. Dataset, který je použit pro experimenty v této práci, obsahuje přes 200 000 vzorků, z nichž přibližně polovina je škodlivá a polovina nezávadná. Zkoušíme několik různých algoritmů strojového učení a vyhodnocujeme jejich kva- litu. Velikost našeho datasetu snižuje poměr šumu a poskytuje tak dobrý základ pro trénování klasifikačních modelů. Výsledky experimentů ukazují, že navrhovaný algoritmus má poměru vzorků, které byly chybně označné jako škodlivé, pod 2,9 % přičemž správně nalezne přes 93,6 % malwaru. 1cs_CZ
dc.languageEnglishcs_CZ
dc.language.isoen_US
dc.publisherUniverzita Karlova, Matematicko-fyzikální fakultacs_CZ
dc.subjectmalware analysisen_US
dc.subjectandroiden_US
dc.subjectmachine learningen_US
dc.subjectfeature engineeringen_US
dc.subjectanalýza malwarecs_CZ
dc.subjectandroidcs_CZ
dc.subjectstrojové učenícs_CZ
dc.subjectfeature engineeringcs_CZ
dc.titleFeature extraction from Android application packages and its usage in machine learning for malware classificationen_US
dc.typebakalářská prácecs_CZ
dcterms.created2017
dcterms.dateAccepted2017-09-06
dc.description.departmentComputer Science Institute of Charles Universityen_US
dc.description.departmentInformatický ústav Univerzity Karlovycs_CZ
dc.description.facultyFaculty of Mathematics and Physicsen_US
dc.description.facultyMatematicko-fyzikální fakultacs_CZ
dc.identifier.repId190526
dc.title.translatedExtrakce příznaků z programových balíčků systému Android a jejich použití ve strojovém učení pro klasifikaci malwarecs_CZ
dc.contributor.refereeKofroň, Jan
thesis.degree.nameBc.
thesis.degree.levelbakalářskécs_CZ
thesis.degree.disciplineGeneral Computer Scienceen_US
thesis.degree.disciplineObecná informatikacs_CZ
thesis.degree.programInformatikacs_CZ
thesis.degree.programComputer Scienceen_US
uk.thesis.typebakalářská prácecs_CZ
uk.taxonomy.organization-csMatematicko-fyzikální fakulta::Informatický ústav Univerzity Karlovycs_CZ
uk.taxonomy.organization-enFaculty of Mathematics and Physics::Computer Science Institute of Charles Universityen_US
uk.faculty-name.csMatematicko-fyzikální fakultacs_CZ
uk.faculty-name.enFaculty of Mathematics and Physicsen_US
uk.faculty-abbr.csMFFcs_CZ
uk.degree-discipline.csObecná informatikacs_CZ
uk.degree-discipline.enGeneral Computer Scienceen_US
uk.degree-program.csInformatikacs_CZ
uk.degree-program.enComputer Scienceen_US
thesis.grade.csDobřecs_CZ
thesis.grade.enGooden_US
uk.abstract.csV této práci navrhujeme klasifikační algoritmus založený na metodách stro- jového učení pro aplikace na populární operační systém Android, který má za cíl rozlišovat škodlivé aplikace od nezávadných. Extrakce příznaků pro strojové učení je založena na statické analýze bajtkódu se zaměřením na API volání a volání metod. Ukazujeme různé přístupy jak z nejčastějších API volání vytvořit seznam číselných příznaků. Dále zkoumáme specifika extrahovaných příznaků a jejich důležitost. Dataset, který je použit pro experimenty v této práci, obsahuje přes 200 000 vzorků, z nichž přibližně polovina je škodlivá a polovina nezávadná. Zkoušíme několik různých algoritmů strojového učení a vyhodnocujeme jejich kva- litu. Velikost našeho datasetu snižuje poměr šumu a poskytuje tak dobrý základ pro trénování klasifikačních modelů. Výsledky experimentů ukazují, že navrhovaný algoritmus má poměru vzorků, které byly chybně označné jako škodlivé, pod 2,9 % přičemž správně nalezne přes 93,6 % malwaru. 1cs_CZ
uk.abstract.enIn this Thesis, we propose a machine-learning based classification algorithm of applications for a popular mobile phone operating system Android that can dis- tinguish malicious samples from benign ones. Feature extraction for the machine learning is based on static analysis of the application's bytecode with focus on API and method calls. We show various ways to transform the most frequent API and method calls into numeric (histogram-based) features. We further examine the specifics of the extracted features and discuss their importance. The dataset used for experiments in this Thesis contains more than 200,000 samples with approxi- mately half of them malicious and half of them benign. Further, multiple machine learning algorithms are examined and their performance is evaluated. The size of our dataset prevents overfitting and hence provides a reliable basis for training of classification models. The results of the experiments show that the proposed algo- rithm achieves very low false positive rate under 2.9% while preserving specificity over 93.6%. 1en_US
uk.file-availabilityV
uk.publication.placePrahacs_CZ
uk.grantorUniverzita Karlova, Matematicko-fyzikální fakulta, Informatický ústav Univerzity Karlovycs_CZ


Files in this item

Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record


© 2017 Univerzita Karlova, Ústřední knihovna, Ovocný trh 560/5, 116 36 Praha 1; email: admin-repozitar [at] cuni.cz

Za dodržení všech ustanovení autorského zákona jsou zodpovědné jednotlivé složky Univerzity Karlovy. / Each constituent part of Charles University is responsible for adherence to all provisions of the copyright law.

Upozornění / Notice: Získané informace nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora. / Any retrieved information shall not be used for any commercial purposes or claimed as results of studying, scientific or any other creative activities of any person other than the author.

DSpace software copyright © 2002-2015  DuraSpace
Theme by 
@mire NV