Named Entity Recognition and Its Application to Phishing Detection
Rozpoznávání pojmenovaných entit a jeho aplikace pro detekci phishingu
bakalářská práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/176098Identifikátory
SIS: 244319
Kolekce
- Kvalifikační práce [10690]
Autor
Vedoucí práce
Konzultant práce
Brabec, Jan
Oponent práce
Vomlelová, Marta
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Informatika se specializací Programování a vývoj software
Katedra / ústav / klinika
Katedra softwarového inženýrství
Datum obhajoby
12. 9. 2022
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
detekce phishingu|rozpoznávání pojmenovaných entit|neuronové sítě|zpracování přirozeného jazyka|transformerKlíčová slova (anglicky)
phishing detection|named entity recognition|neural networks|natural language processing|transformerTato bakalářská práce se zabývá rozpoznáváním pojmenovaných entit a jeho aplikací pro detekci phishingu v emailové korespondenci. Rozpoznávání pojmenovaných entit je klasifikační úloha, jejíž cílem je extrahovat informace z textu klasifikovaného do pře- dem definované množiny kategorií (pojmenované entity) jako například názvy organizací, míst či osob. Dále práce popisuje různé přístupy k rozpoznávání pojmenovaných entit, od jednoduchého využití neuronových sítí k momentálně nejmodernějším architekturám. Nejrozšířenější knihovny a jejich modely týkající se rozpoznávání pojmenovaných entit jsou navzájem porovnávány z pohledu výpočetního výkonu a přesnosti predikcí na ve- řejně dostupném Enron email datasetu. Rozdíly v nalezených pojmenovaných entitách mezi pozitivními (včetně phishingových) a negativními emaily jsou určeny na proprie- tárním datasetu. Na závěr je tento dataset použit pro experiment, kde proces klasifikace phishingových e-mailů je obohacen o pojmenované entity k cílem dojít k závěru, zda jsou pojmenované entity užitečné pro klasifikátor ke zlepšení prediktivního výkonu. Na základě výsledků experimentů byla pozorována znatelná odlišnost v pozitivních a nega- tivních emailech. Nicméně v experimentu týkající se klasifikace phishingových emailů nad tímto datasetem se došlo k závěru, že...
This thesis focuses on named entity recognition applied to email phishing detection. Named entity recognition is a classification task that aims to extract information from a text into a predefined set of categories (named entities), such as organizations, person names, or locations. The thesis describes various named entity recognition approaches, ranging from simple utilizations of neural networks to the current state-of-the-art archi- tectures. The most prevalent libraries and their models in named entity recognition are compared against each other from the computational and predictive performance per- spective on the publicly available Enron email dataset. Moreover, differences in terms of named entities between positive (including phishing) and negative emails are measured on a proprietary dataset. Ultimately, the proprietary dataset is used for an experiment where a phishing email classification workflow is enriched with named entities to conclude whether named entities are helpful for the classifier to improve predictive performance. According to the experiment outcomes, a noticeable dissimilarity was measured regarding named entities in positive and negative emails. However, in the phishing email classifica- tion experiment with the provided dataset, it was concluded that named entities do not offer...