Mezijazykový přenos znalostí v úloze odpovídání na otázky

Macková, Kateřina

Crosslingual Transfer in Question Answering

dc.contributor.advisor	Straka, Milan
dc.creator	Macková, Kateřina
dc.date.accessioned	2020-02-24T09:39:55Z
dc.date.available	2020-02-24T09:39:55Z
dc.date.issued	2020
dc.identifier.uri	http://hdl.handle.net/20.500.11956/116614
dc.description.abstract	Question answering is a computer science discipline in the field of natural language processing and information retrieval. The goal is to build a system that can automatically find an answer to a certain question in the text. Nowadays, there exist a lot of models trained on huge training data sets in English. This work focuses on building similar models in Czech without having any Czech training datasets. In this work, we have used SQuAD 1.1 and translated it to Czech to create training and development datasets. Then, we have trained and tested BiDirectional Attention Flow and BERT models. The best obtained result on the Czech dataset is from BERT model trained on Czech with exact match 60.48% and F1 score 73.46%. In addition, we have also trained BERT model on English dataset and we have evaluated it on Czech testing dataset without translation. We have reached exact match 63.71% and F1 score 74.78%, which is extremely good in spite of the fact that the model has not seen any Czech question answering data before. Such a model is very flexible and provide a question answering system in any language for which we have enough monolingual raw texts.	en_US
dc.description.abstract	Question answering je disciplínou informatiky v oblasti zpracování přirozeného jazyka a získávání informací. Cílem je vytvořit systém, který automaticky najde odpověď na určitou otázku v textu. V dnešní době existuje spousta modelů trénovaných na obrovských tréninkových datových souborech v angličtině. Tato práce se zaměřuje na budování podobných modelů v češtině bez českých tréninkových datasetů. Při této práci jsme použili SQuAD 1.1 a přeložili jej do češtiny pro vytvoření trénovacích a testovacích datových souborů. Pak jsme trénovali a testovali modely BiDirectional Attention Flow a BERT. Nejlepší získaný výsledek na českém datasetu je z modelu BERT trénovaného na češtině s přesnou shodou 60,48% a skóre F1 73,46%. Kromě toho jsme také natrénovali model BERT na anglickém datasetu a vyhodnotili jsme ho na českém testovacím datasetu bez překladu. Dosáhli jsme přesné shody 63,71% a skóre F1 74,78%, což je mimořádně dobré navzdory tomu, že model dosud neviděl žádné české question answering data. Takový model je velmi univerzální a poskytuje systém odpovědí na otázky v jakémkoli jazyce, pro který máme dostatek monolingválních textů.	cs_CZ
dc.language	Čeština	cs_CZ
dc.language.iso	cs_CZ
dc.publisher	Univerzita Karlova, Matematicko-fyzikální fakulta	cs_CZ
dc.subject	odpovídání na otázky	cs_CZ
dc.subject	transfer znalostí	cs_CZ
dc.subject	SQuAD	cs_CZ
dc.subject	question answering	en_US
dc.subject	crosslingual transfer	en_US
dc.subject	SQuAD	en_US
dc.title	Mezijazykový přenos znalostí v úloze odpovídání na otázky	cs_CZ
dc.type	diplomová práce	cs_CZ
dcterms.created	2020
dcterms.dateAccepted	2020-02-03
dc.description.department	Ústav formální a aplikované lingvistiky	cs_CZ
dc.description.department	Institute of Formal and Applied Linguistics	en_US
dc.description.faculty	Faculty of Mathematics and Physics	en_US
dc.description.faculty	Matematicko-fyzikální fakulta	cs_CZ
dc.identifier.repId	221320
dc.title.translated	Crosslingual Transfer in Question Answering	en_US
dc.contributor.referee	Rosa, Rudolf
thesis.degree.name	Mgr.
thesis.degree.level	navazující magisterské	cs_CZ
thesis.degree.discipline	Artificial Intelligence	en_US
thesis.degree.discipline	Umělá inteligence	cs_CZ
thesis.degree.program	Computer Science	en_US
thesis.degree.program	Informatika	cs_CZ
uk.thesis.type	diplomová práce	cs_CZ
uk.taxonomy.organization-cs	Matematicko-fyzikální fakulta::Ústav formální a aplikované lingvistiky	cs_CZ
uk.taxonomy.organization-en	Faculty of Mathematics and Physics::Institute of Formal and Applied Linguistics	en_US
uk.faculty-name.cs	Matematicko-fyzikální fakulta	cs_CZ
uk.faculty-name.en	Faculty of Mathematics and Physics	en_US
uk.faculty-abbr.cs	MFF	cs_CZ
uk.degree-discipline.cs	Umělá inteligence	cs_CZ
uk.degree-discipline.en	Artificial Intelligence	en_US
uk.degree-program.cs	Informatika	cs_CZ
uk.degree-program.en	Computer Science	en_US
thesis.grade.cs	Dobře	cs_CZ
thesis.grade.en	Good	en_US
uk.abstract.cs	Question answering je disciplínou informatiky v oblasti zpracování přirozeného jazyka a získávání informací. Cílem je vytvořit systém, který automaticky najde odpověď na určitou otázku v textu. V dnešní době existuje spousta modelů trénovaných na obrovských tréninkových datových souborech v angličtině. Tato práce se zaměřuje na budování podobných modelů v češtině bez českých tréninkových datasetů. Při této práci jsme použili SQuAD 1.1 a přeložili jej do češtiny pro vytvoření trénovacích a testovacích datových souborů. Pak jsme trénovali a testovali modely BiDirectional Attention Flow a BERT. Nejlepší získaný výsledek na českém datasetu je z modelu BERT trénovaného na češtině s přesnou shodou 60,48% a skóre F1 73,46%. Kromě toho jsme také natrénovali model BERT na anglickém datasetu a vyhodnotili jsme ho na českém testovacím datasetu bez překladu. Dosáhli jsme přesné shody 63,71% a skóre F1 74,78%, což je mimořádně dobré navzdory tomu, že model dosud neviděl žádné české question answering data. Takový model je velmi univerzální a poskytuje systém odpovědí na otázky v jakémkoli jazyce, pro který máme dostatek monolingválních textů.	cs_CZ
uk.abstract.en	Question answering is a computer science discipline in the field of natural language processing and information retrieval. The goal is to build a system that can automatically find an answer to a certain question in the text. Nowadays, there exist a lot of models trained on huge training data sets in English. This work focuses on building similar models in Czech without having any Czech training datasets. In this work, we have used SQuAD 1.1 and translated it to Czech to create training and development datasets. Then, we have trained and tested BiDirectional Attention Flow and BERT models. The best obtained result on the Czech dataset is from BERT model trained on Czech with exact match 60.48% and F1 score 73.46%. In addition, we have also trained BERT model on English dataset and we have evaluated it on Czech testing dataset without translation. We have reached exact match 63.71% and F1 score 74.78%, which is extremely good in spite of the fact that the model has not seen any Czech question answering data before. Such a model is very flexible and provide a question answering system in any language for which we have enough monolingual raw texts.	en_US
uk.file-availability	V
uk.grantor	Univerzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistiky	cs_CZ
thesis.grade.code	3
uk.publication-place	Praha	cs_CZ