Zobrazit minimální záznam

Klasifikace žánrů pomocí strojového učení
dc.contributor.advisorNeruda, Roman
dc.creatorBílek, Jan
dc.date.accessioned2018-10-04T12:43:29Z
dc.date.available2018-10-04T12:43:29Z
dc.date.issued2018
dc.identifier.urihttp://hdl.handle.net/20.500.11956/101890
dc.description.abstractIn this thesis, we compare the bag of words approach with doc2vec doc- ument embeddings on the task of classification of book genres. We cre- ate 3 datasets with different text lengths by extracting short snippets from books in Project Gutenberg repository. Each dataset comprises of more than 200000 documents and 14 different genres. For 3200-character documents, we achieve F1-score of 0.862 when stacking models trained on both bag of words and doc2vec representations. We also explore the relationships be- tween documents, genres and words using similarity metrics on their vector representations and report typical words for each genre. As part of the thesis, we also present an online webapp for book genre classification. 1en_US
dc.description.abstractV této práci porovnáváme bag of words a doc2vec přístup k problému klasifikace literárních žánrů. Na základě textů knih z repozitáře Projektu Gutenberg vytváříme tři datatsety různých délek. Každý z nich obsahuje přes 200000 dokumentů a 14 různých žánrů. Na souboru dokumentů s délkou 3200 znaků dosahujeme kombinací modelů bag of words a doc2vec reprezentace F1-skóre 0.862. V práci dále zkoumáme vztahy mezi knihami, žánry a slovy na základě podobnostní jejich vektorové reprezentace a uvádíme typická slova pro každý žánr. Součástí práce je webová aplikace na klasifikaci žánrů. 1cs_CZ
dc.languageEnglishcs_CZ
dc.language.isoen_US
dc.publisherUniverzita Karlova, Matematicko-fyzikální fakultacs_CZ
dc.subjectMachine learningen_US
dc.subjectnatural language processingen_US
dc.subjectgenre classificationen_US
dc.subjectword embeddingsen_US
dc.subjectparagraph vectoren_US
dc.subjectStrojové učenícs_CZ
dc.subjectzpracování přirozeného jazykacs_CZ
dc.subjectklasifikace žánrůcs_CZ
dc.subjectvnoření slovcs_CZ
dc.subjectparagraph vectorcs_CZ
dc.titleGenres classification by means of machine learningen_US
dc.typediplomová prácecs_CZ
dcterms.created2018
dcterms.dateAccepted2018-09-13
dc.description.departmentKatedra teoretické informatiky a matematické logikycs_CZ
dc.description.departmentDepartment of Theoretical Computer Science and Mathematical Logicen_US
dc.description.facultyFaculty of Mathematics and Physicsen_US
dc.description.facultyMatematicko-fyzikální fakultacs_CZ
dc.identifier.repId202143
dc.title.translatedKlasifikace žánrů pomocí strojového učenícs_CZ
dc.contributor.refereeVomlelová, Marta
thesis.degree.nameMgr.
thesis.degree.levelnavazující magisterskécs_CZ
thesis.degree.disciplineArtificial Intelligenceen_US
thesis.degree.disciplineUmělá inteligencecs_CZ
thesis.degree.programInformatikacs_CZ
thesis.degree.programComputer Scienceen_US
uk.thesis.typediplomová prácecs_CZ
uk.taxonomy.organization-csMatematicko-fyzikální fakulta::Katedra teoretické informatiky a matematické logikycs_CZ
uk.taxonomy.organization-enFaculty of Mathematics and Physics::Department of Theoretical Computer Science and Mathematical Logicen_US
uk.faculty-name.csMatematicko-fyzikální fakultacs_CZ
uk.faculty-name.enFaculty of Mathematics and Physicsen_US
uk.faculty-abbr.csMFFcs_CZ
uk.degree-discipline.csUmělá inteligencecs_CZ
uk.degree-discipline.enArtificial Intelligenceen_US
uk.degree-program.csInformatikacs_CZ
uk.degree-program.enComputer Scienceen_US
thesis.grade.csVýborněcs_CZ
thesis.grade.enExcellenten_US
uk.abstract.csV této práci porovnáváme bag of words a doc2vec přístup k problému klasifikace literárních žánrů. Na základě textů knih z repozitáře Projektu Gutenberg vytváříme tři datatsety různých délek. Každý z nich obsahuje přes 200000 dokumentů a 14 různých žánrů. Na souboru dokumentů s délkou 3200 znaků dosahujeme kombinací modelů bag of words a doc2vec reprezentace F1-skóre 0.862. V práci dále zkoumáme vztahy mezi knihami, žánry a slovy na základě podobnostní jejich vektorové reprezentace a uvádíme typická slova pro každý žánr. Součástí práce je webová aplikace na klasifikaci žánrů. 1cs_CZ
uk.abstract.enIn this thesis, we compare the bag of words approach with doc2vec doc- ument embeddings on the task of classification of book genres. We cre- ate 3 datasets with different text lengths by extracting short snippets from books in Project Gutenberg repository. Each dataset comprises of more than 200000 documents and 14 different genres. For 3200-character documents, we achieve F1-score of 0.862 when stacking models trained on both bag of words and doc2vec representations. We also explore the relationships be- tween documents, genres and words using similarity metrics on their vector representations and report typical words for each genre. As part of the thesis, we also present an online webapp for book genre classification. 1en_US
uk.file-availabilityV
uk.publication.placePrahacs_CZ
uk.grantorUniverzita Karlova, Matematicko-fyzikální fakulta, Katedra teoretické informatiky a matematické logikycs_CZ
thesis.grade.code1


Soubory tohoto záznamu

Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail

Tento záznam se objevuje v následujících sbírkách

Zobrazit minimální záznam


© 2017 Univerzita Karlova, Ústřední knihovna, Ovocný trh 560/5, 116 36 Praha 1; email: admin-repozitar [at] cuni.cz

Za dodržení všech ustanovení autorského zákona jsou zodpovědné jednotlivé složky Univerzity Karlovy. / Each constituent part of Charles University is responsible for adherence to all provisions of the copyright law.

Upozornění / Notice: Získané informace nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora. / Any retrieved information shall not be used for any commercial purposes or claimed as results of studying, scientific or any other creative activities of any person other than the author.

DSpace software copyright © 2002-2015  DuraSpace
Theme by 
@mire NV