Feature selection for text classification with Naive Bayes

Lux, Erik

Výběr příznaků pro klasifikaci textu pomocí Naivního Bayovského klasifikátoru

bakalářská práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (80.01Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/46007

Identifikátory

SIS: 122412

Katalog UK: 990014798280106986

Oponent práce

Petříček, Martin

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Obecná informatika

Katedra / ústav / klinika

Katedra teoretické informatiky a matematické logiky

Datum obhajoby

18. 6. 2012

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Angličtina

Známka

Velmi dobře

Klíčová slova (česky)

Naivní bayesovský klasifikátor, Klasifikace textu, Výběr příznaků

Klíčová slova (anglicky)

Naive Bayes, Feature Selection, Text classification

Tato práce se zabývá výzkumem v oblasti klasifikace dokumentů. Popisuje již existujici techniky s důrazem na Naivní Bayesův klasifikátor. Zmíněny jsou i některé z metod pro výběr příznaků. Teoretické pozadí je základem pro implementaci klasifikační knihovny založené na metodě Naivního Bayesovského klasifikátoru. Knihovna poskytuje kromě samotného klasifikátoru i paletu nástrojů pro předzpracování textu. Tyto nástroje umožňují práci s rozličným typem dokumentů, ale především značně snižují nadbytečné dimenze vstupních dat. Knihovna je testována na dvou různych referenčních datových sadách na kterých jsou diskutovány rozdíly chování jednotlivých metod pro výběr příznaků. Funkčnost celé knihovny je prakticky ověřena jejím začleněním do open-source emailového klienta Mailpuccino.

Abstrakt (anglicky)

The work presents the field of document classification. It describes existing techniques with emphasis on the Naive Bayes' classifier. Several existing feature selection methods suitable for the Naive Bayes' classifier are discussed. This theoretical background is the basis for the implementation of a classification library based on the Naive Bayes' method. Besides the classification program, the library provides a range of document preprocessing tools. They allow to work with different types of documents and, more importantly, they significantly reduce redundant document dimensions. Eventually, we tested the library on two different datasets and compared implemented feature selection methods. The functionality of the whole library is practically verified by including it into the open-source email client Mailpuccino.

Citace dokumentu

Metadata

Zobrazit celý záznam