Zobrazit minimální záznam

Crosslingual Transfer in Question Answering
dc.contributor.advisorStraka, Milan
dc.creatorMacková, Kateřina
dc.date.accessioned2020-02-24T09:39:55Z
dc.date.available2020-02-24T09:39:55Z
dc.date.issued2020
dc.identifier.urihttp://hdl.handle.net/20.500.11956/116614
dc.description.abstractQuestion answering is a computer science discipline in the field of natural language processing and information retrieval. The goal is to build a system that can automatically find an answer to a certain question in the text. Nowadays, there exist a lot of models trained on huge training data sets in English. This work focuses on building similar models in Czech without having any Czech training datasets. In this work, we have used SQuAD 1.1 and translated it to Czech to create training and development datasets. Then, we have trained and tested BiDirectional Attention Flow and BERT models. The best obtained result on the Czech dataset is from BERT model trained on Czech with exact match 60.48% and F1 score 73.46%. In addition, we have also trained BERT model on English dataset and we have evaluated it on Czech testing dataset without translation. We have reached exact match 63.71% and F1 score 74.78%, which is extremely good in spite of the fact that the model has not seen any Czech question answering data before. Such a model is very flexible and provide a question answering system in any language for which we have enough monolingual raw texts.en_US
dc.description.abstractQuestion answering je disciplínou informatiky v oblasti zpracování přirozeného jazyka a získávání informací. Cílem je vytvořit systém, který automaticky najde odpověď na určitou otázku v textu. V dnešní době existuje spousta modelů trénovaných na obrovských tréninkových datových souborech v angličtině. Tato práce se zaměřuje na budování podobných modelů v češtině bez českých tréninkových datasetů. Při této práci jsme použili SQuAD 1.1 a přeložili jej do češtiny pro vytvoření trénovacích a testovacích datových souborů. Pak jsme trénovali a testovali modely BiDirectional Attention Flow a BERT. Nejlepší získaný výsledek na českém datasetu je z modelu BERT trénovaného na češtině s přesnou shodou 60,48% a skóre F1 73,46%. Kromě toho jsme také natrénovali model BERT na anglickém datasetu a vyhodnotili jsme ho na českém testovacím datasetu bez překladu. Dosáhli jsme přesné shody 63,71% a skóre F1 74,78%, což je mimořádně dobré navzdory tomu, že model dosud neviděl žádné české question answering data. Takový model je velmi univerzální a poskytuje systém odpovědí na otázky v jakémkoli jazyce, pro který máme dostatek monolingválních textů.cs_CZ
dc.languageČeštinacs_CZ
dc.language.isocs_CZ
dc.publisherUniverzita Karlova, Matematicko-fyzikální fakultacs_CZ
dc.subjectodpovídání na otázkycs_CZ
dc.subjecttransfer znalostícs_CZ
dc.subjectSQuADcs_CZ
dc.subjectquestion answeringen_US
dc.subjectcrosslingual transferen_US
dc.subjectSQuADen_US
dc.titleMezijazykový přenos znalostí v úloze odpovídání na otázkycs_CZ
dc.typediplomová prácecs_CZ
dcterms.created2020
dcterms.dateAccepted2020-02-03
dc.description.departmentÚstav formální a aplikované lingvistikycs_CZ
dc.description.departmentInstitute of Formal and Applied Linguisticsen_US
dc.description.facultyFaculty of Mathematics and Physicsen_US
dc.description.facultyMatematicko-fyzikální fakultacs_CZ
dc.identifier.repId221320
dc.title.translatedCrosslingual Transfer in Question Answeringen_US
dc.contributor.refereeRosa, Rudolf
thesis.degree.nameMgr.
thesis.degree.levelnavazující magisterskécs_CZ
thesis.degree.disciplineArtificial Intelligenceen_US
thesis.degree.disciplineUmělá inteligencecs_CZ
thesis.degree.programComputer Scienceen_US
thesis.degree.programInformatikacs_CZ
uk.thesis.typediplomová prácecs_CZ
uk.taxonomy.organization-csMatematicko-fyzikální fakulta::Ústav formální a aplikované lingvistikycs_CZ
uk.taxonomy.organization-enFaculty of Mathematics and Physics::Institute of Formal and Applied Linguisticsen_US
uk.faculty-name.csMatematicko-fyzikální fakultacs_CZ
uk.faculty-name.enFaculty of Mathematics and Physicsen_US
uk.faculty-abbr.csMFFcs_CZ
uk.degree-discipline.csUmělá inteligencecs_CZ
uk.degree-discipline.enArtificial Intelligenceen_US
uk.degree-program.csInformatikacs_CZ
uk.degree-program.enComputer Scienceen_US
thesis.grade.csDobřecs_CZ
thesis.grade.enGooden_US
uk.abstract.csQuestion answering je disciplínou informatiky v oblasti zpracování přirozeného jazyka a získávání informací. Cílem je vytvořit systém, který automaticky najde odpověď na určitou otázku v textu. V dnešní době existuje spousta modelů trénovaných na obrovských tréninkových datových souborech v angličtině. Tato práce se zaměřuje na budování podobných modelů v češtině bez českých tréninkových datasetů. Při této práci jsme použili SQuAD 1.1 a přeložili jej do češtiny pro vytvoření trénovacích a testovacích datových souborů. Pak jsme trénovali a testovali modely BiDirectional Attention Flow a BERT. Nejlepší získaný výsledek na českém datasetu je z modelu BERT trénovaného na češtině s přesnou shodou 60,48% a skóre F1 73,46%. Kromě toho jsme také natrénovali model BERT na anglickém datasetu a vyhodnotili jsme ho na českém testovacím datasetu bez překladu. Dosáhli jsme přesné shody 63,71% a skóre F1 74,78%, což je mimořádně dobré navzdory tomu, že model dosud neviděl žádné české question answering data. Takový model je velmi univerzální a poskytuje systém odpovědí na otázky v jakémkoli jazyce, pro který máme dostatek monolingválních textů.cs_CZ
uk.abstract.enQuestion answering is a computer science discipline in the field of natural language processing and information retrieval. The goal is to build a system that can automatically find an answer to a certain question in the text. Nowadays, there exist a lot of models trained on huge training data sets in English. This work focuses on building similar models in Czech without having any Czech training datasets. In this work, we have used SQuAD 1.1 and translated it to Czech to create training and development datasets. Then, we have trained and tested BiDirectional Attention Flow and BERT models. The best obtained result on the Czech dataset is from BERT model trained on Czech with exact match 60.48% and F1 score 73.46%. In addition, we have also trained BERT model on English dataset and we have evaluated it on Czech testing dataset without translation. We have reached exact match 63.71% and F1 score 74.78%, which is extremely good in spite of the fact that the model has not seen any Czech question answering data before. Such a model is very flexible and provide a question answering system in any language for which we have enough monolingual raw texts.en_US
uk.file-availabilityV
uk.grantorUniverzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistikycs_CZ
thesis.grade.code3
uk.publication-placePrahacs_CZ


Soubory tohoto záznamu

Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail

Tento záznam se objevuje v následujících sbírkách

Zobrazit minimální záznam


© 2017 Univerzita Karlova, Ústřední knihovna, Ovocný trh 560/5, 116 36 Praha 1; email: admin-repozitar [at] cuni.cz

Za dodržení všech ustanovení autorského zákona jsou zodpovědné jednotlivé složky Univerzity Karlovy. / Each constituent part of Charles University is responsible for adherence to all provisions of the copyright law.

Upozornění / Notice: Získané informace nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora. / Any retrieved information shall not be used for any commercial purposes or claimed as results of studying, scientific or any other creative activities of any person other than the author.

DSpace software copyright © 2002-2015  DuraSpace
Theme by 
@mire NV