Named Entity Recognition and Its Application to Phishing Detection

Pop, Tomáš

Rozpoznávání pojmenovaných entit a jeho aplikace pro detekci phishingu

bakalářská práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (347.5Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/176098

Identifikátory

SIS: 244319

Konzultant práce

Brabec, Jan

Oponent práce

Vomlelová, Marta

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Informatika se specializací Programování a vývoj software

Katedra / ústav / klinika

Katedra softwarového inženýrství

Datum obhajoby

12. 9. 2022

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Angličtina

Známka

Výborně

Klíčová slova (česky)

detekce phishingu|rozpoznávání pojmenovaných entit|neuronové sítě|zpracování přirozeného jazyka|transformer

Klíčová slova (anglicky)

phishing detection|named entity recognition|neural networks|natural language processing|transformer

Tato bakalářská práce se zabývá rozpoznáváním pojmenovaných entit a jeho aplikací pro detekci phishingu v emailové korespondenci. Rozpoznávání pojmenovaných entit je klasifikační úloha, jejíž cílem je extrahovat informace z textu klasifikovaného do pře- dem definované množiny kategorií (pojmenované entity) jako například názvy organizací, míst či osob. Dále práce popisuje různé přístupy k rozpoznávání pojmenovaných entit, od jednoduchého využití neuronových sítí k momentálně nejmodernějším architekturám. Nejrozšířenější knihovny a jejich modely týkající se rozpoznávání pojmenovaných entit jsou navzájem porovnávány z pohledu výpočetního výkonu a přesnosti predikcí na ve- řejně dostupném Enron email datasetu. Rozdíly v nalezených pojmenovaných entitách mezi pozitivními (včetně phishingových) a negativními emaily jsou určeny na proprie- tárním datasetu. Na závěr je tento dataset použit pro experiment, kde proces klasifikace phishingových e-mailů je obohacen o pojmenované entity k cílem dojít k závěru, zda jsou pojmenované entity užitečné pro klasifikátor ke zlepšení prediktivního výkonu. Na základě výsledků experimentů byla pozorována znatelná odlišnost v pozitivních a nega- tivních emailech. Nicméně v experimentu týkající se klasifikace phishingových emailů nad tímto datasetem se došlo k závěru, že...

Abstrakt (anglicky)

This thesis focuses on named entity recognition applied to email phishing detection. Named entity recognition is a classification task that aims to extract information from a text into a predefined set of categories (named entities), such as organizations, person names, or locations. The thesis describes various named entity recognition approaches, ranging from simple utilizations of neural networks to the current state-of-the-art archi- tectures. The most prevalent libraries and their models in named entity recognition are compared against each other from the computational and predictive performance per- spective on the publicly available Enron email dataset. Moreover, differences in terms of named entities between positive (including phishing) and negative emails are measured on a proprietary dataset. Ultimately, the proprietary dataset is used for an experiment where a phishing email classification workflow is enriched with named entities to conclude whether named entities are helpful for the classifier to improve predictive performance. According to the experiment outcomes, a noticeable dissimilarity was measured regarding named entities in positive and negative emails. However, in the phishing email classifica- tion experiment with the provided dataset, it was concluded that named entities do not offer...

Citace dokumentu

Metadata

Zobrazit celý záznam