Question Answering in Czech via Machine Translation and Cross-lingual Transfer
Úloha odpovídání na otázky v češtině pomocí strojového překladu a mezijazykového přenosu znalostí
rigorous thesis (DEFENDED)
Item with restricted access
Whole item or its parts have restricted access until 31. 10. 2025
Reason for restricted acccess:
protection of the legitimate interests of third parties worthy of special consideration
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/178197Identifiers
Study Information System: 247891
Collections
- Kvalifikační práce [10932]
Author
Advisor
Referee
Mareček, David
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computational Linguistics
Department
Institute of Formal and Applied Linguistics
Date of defense
31. 10. 2022
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Pass
Keywords (Czech)
Úloha odpovídání na otázky|Čtení s porozuměním|Zpracování přirozeného jazyka|Crosslingual Transfer|SQuAD|Transformer|BERT|XLM-RoBERTaKeywords (English)
Question answering|Reading Comprehension|Natural language processing|Crosslingual Transfer|SQuAD|Transformer|BERT|XLM-RoBERTaInformatické zpracování dovednosti čtení s porozuměním a úlohy odpovídání na otázky se zabývají oblastmi zpracování přirozeného jazyka a vyhledávání informací. Čtení s porozuměním je schopnost modelu číst a zpracovat text a porozumět jeho významu. Jednou z jeho aplikací je úloha odpovídání na otázky, které se zabývá vytvořením systému, který dokáže v textu automaticky najít odpověď na určitou otázku, která přímo souvisí s obsahem dokumentu. Pro angličtinu se jedná se o hojně studovanou úlohu, pro kterou existují obrovská tréninková data a spousty modelů. Pro tuto oblast však neexistují žádné modely ani data v češtině. Tato práce se zaměřuje na vytvoření systémů pro úlohy čtení s porozuměním a odpovídání na otázky v českém jazyce, a to bez nutnosti ručně vytvářet česká data. Hlavním cílem je automatické vytvoření českých trénovacích a testovacích dat a vytvoření modelů pro úlohu odpovídání na otázky v češtině. Využívá se existujících anglických dat a modelů za pomoci překladu a mezijazykového přenosu znalostí a následného porovnání výsledků a výběru modelu s nejlepšími výsledky. Nejprve jsme přeložili volně dostupná anglická data pro úlohu odpovídání na otázky SQuAD 1.1 a SQuAD 2.0 do češtiny, aby- chom vytvořili trénovací a testovací data. Poté jsme přetrénovali a vyhodnotili několik základních modelů BERT...
Reading comprehension and question answering are computer science disciplines in the field of natural language processing and information retrieval. Reading comprehension is the ability of the model to read text, process it and understand its meaning. One of its applications is in question answering tasks, which is concerned with building a system that can automatically find an answer in the text to a certain question relied on the content of the text. It is a well-studied task, with huge training datasets in English. However, there are no Czech datasets and models for this task. This work focuses on building reading comprehension and question answering systems for Czech, without requiring any manually annotated Czech training data. Our main focus is to create Czech training and development datasets, create the models for the Czech question answering system using Czech data, and create the models for the Czech question answering system using English data and cross-lingual transfer and compare the results and select the best model. First of all, we translated freely available English question answering datasets SQuAD 1.1 and SQuAD 2.0 to Czech to create training and development datasets. We then trained and evaluated several BERT and XLM-RoBERTa baseline models used for the question answering task in...