dc.contributor.advisor | Vomlelová, Marta | |
dc.creator | Gabašová, Evelina | |
dc.date.accessioned | 2017-04-06T10:45:15Z | |
dc.date.available | 2017-04-06T10:45:15Z | |
dc.date.issued | 2007 | |
dc.identifier.uri | http://hdl.handle.net/20.500.11956/13039 | |
dc.description.abstract | Klastrování a klasi kace textů jsou důležitými úlohami strojového učení. V této práci je prezentována kombinace jejich přístupů. Hlavním účelem bylo automaticky připravit množinu klastrů (nebo obecně konceptů), které by následně sloužily jako trénovací data pro naučení klasi fikátoru. Tato práce zahrnuje teoretické pozadí, detaily implementace a výsledky experimentů pro klastrování a klasifi kaci textových dokumentů. Trénovací soubor dokumentů je nejprve hierarchicky klastrování algoritmem bisecting k-means. Výsledek tohoto procesu je možné upravovat a vylepšovat s využitím expertní znalosti. Tímto způsobem vytvořená hierarchická struktura je použita pro naučení naivního bayesovského klasifi kátoru, který je následně využit k roztřídění testovací množiny dokumentů. Pro tyto účely byl vyvinut program, jehož výsledky jsou zhodnoceny a porovnány při zpracování českých a anglických dokumentů. | cs_CZ |
dc.description.abstract | Text clustering and classi cation are important machine learning tasks. In this work, a combination of their approaches is presented. The main purpose was to automatically prepare a set of clusters (or generally concepts), which would subsequently serve as a training data for learning of a classiffi er. This work comprises of theoretical background, implementation details and experimental results of clustering and classi cation of text documents. A train set of documents is rst hierarchically clustered by the bisecting k-means algorithm. The result is o ered to an expert for modifi cations and possible improvements of the hierarchy. Following this, the resulting structure is used for learning of a naive Bayes classi er and a test set of documents is classi ed by it. A program was developed to perform these tasks and its results are evaluated and compared in processing document collections written in both English and Czech. | en_US |
dc.language | English | cs_CZ |
dc.language.iso | en_US | |
dc.publisher | Univerzita Karlova, Matematicko-fyzikální fakulta | cs_CZ |
dc.title | Text clustering and classification /(Klastrování a klasifikace textů) | en_US |
dc.type | bakalářská práce | cs_CZ |
dcterms.created | 2007 | |
dcterms.dateAccepted | 2007-09-10 | |
dc.description.department | Katedra teoretické informatiky a matematické logiky | cs_CZ |
dc.description.department | Department of Theoretical Computer Science and Mathematical Logic | en_US |
dc.description.faculty | Faculty of Mathematics and Physics | en_US |
dc.description.faculty | Matematicko-fyzikální fakulta | cs_CZ |
dc.identifier.repId | 46458 | |
dc.title.translated | Klastrování a klasifi kace textů | cs_CZ |
dc.contributor.referee | Hric, Jan | |
dc.identifier.aleph | 000863678 | |
thesis.degree.name | Bc. | |
thesis.degree.level | bakalářské | cs_CZ |
thesis.degree.discipline | Obecná informatika | cs_CZ |
thesis.degree.discipline | General Computer Science | en_US |
thesis.degree.program | Computer Science | en_US |
thesis.degree.program | Informatika | cs_CZ |
uk.faculty-name.cs | Matematicko-fyzikální fakulta | cs_CZ |
uk.faculty-name.en | Faculty of Mathematics and Physics | en_US |
uk.faculty-abbr.cs | MFF | cs_CZ |
uk.degree-discipline.cs | Obecná informatika | cs_CZ |
uk.degree-discipline.en | General Computer Science | en_US |
uk.degree-program.cs | Informatika | cs_CZ |
uk.degree-program.en | Computer Science | en_US |
thesis.grade.cs | Výborně | cs_CZ |
thesis.grade.en | Excellent | en_US |
uk.abstract.cs | Klastrování a klasi kace textů jsou důležitými úlohami strojového učení. V této práci je prezentována kombinace jejich přístupů. Hlavním účelem bylo automaticky připravit množinu klastrů (nebo obecně konceptů), které by následně sloužily jako trénovací data pro naučení klasi fikátoru. Tato práce zahrnuje teoretické pozadí, detaily implementace a výsledky experimentů pro klastrování a klasifi kaci textových dokumentů. Trénovací soubor dokumentů je nejprve hierarchicky klastrování algoritmem bisecting k-means. Výsledek tohoto procesu je možné upravovat a vylepšovat s využitím expertní znalosti. Tímto způsobem vytvořená hierarchická struktura je použita pro naučení naivního bayesovského klasifi kátoru, který je následně využit k roztřídění testovací množiny dokumentů. Pro tyto účely byl vyvinut program, jehož výsledky jsou zhodnoceny a porovnány při zpracování českých a anglických dokumentů. | cs_CZ |
uk.abstract.en | Text clustering and classi cation are important machine learning tasks. In this work, a combination of their approaches is presented. The main purpose was to automatically prepare a set of clusters (or generally concepts), which would subsequently serve as a training data for learning of a classiffi er. This work comprises of theoretical background, implementation details and experimental results of clustering and classi cation of text documents. A train set of documents is rst hierarchically clustered by the bisecting k-means algorithm. The result is o ered to an expert for modifi cations and possible improvements of the hierarchy. Following this, the resulting structure is used for learning of a naive Bayes classi er and a test set of documents is classi ed by it. A program was developed to perform these tasks and its results are evaluated and compared in processing document collections written in both English and Czech. | en_US |
uk.publication.place | Praha | cs_CZ |
uk.grantor | Univerzita Karlova, Matematicko-fyzikální fakulta, Katedra teoretické informatiky a matematické logiky | cs_CZ |