End-to-end dialogue systems with pretrained language models
End-to-end dialogové systémy s předtrénovanými jazykovými modely
diploma thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/127430Identifiers
Study Information System: 233732
Collections
- Kvalifikační práce [11242]
Author
Advisor
Referee
Rosa, Rudolf
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Artificial Intelligence
Department
Institute of Formal and Applied Linguistics
Date of defense
22. 6. 2021
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
strojové učení|dialogové systémy|hluboké učení|předtrénované jazykové modelyKeywords (English)
machine learning|dialogue systems|deep learning|pretrained language modelsSoučasné dialogové systémy se obvykle skládají ze samostatných komponent, které jsou z velké části vytvořeny ručně a vyžadují rozsáhlé anotace dat. Existují end-to- end trénovatelné systémy, které jsou ale méně spolehlivé a produkují méně kvalitní výs- tupy. Současné předtrénované jazykové modely založené na transformer architektuře, jako je GPT-2, přinesly do modelování jazyka značný pokrok, ale současně vyžadují velké množství textových dat, která nejsou pro běžné dialogové domény k dispozici. Proto je při trénování těchto modelů vysoké nebezpečí přeučení. Abychom tyto překážky překonali, navrhujeme nový end-to-end dialogový systém nazvaný AuGPT. Abychom efektivněji využili trénovací data, rozšiřujeme architekturu o pomocné moduly, a aby- chom zvýšili množství a rozmanitost dat, využíváme rozsáhlé augmentace dat pomocí zpětného překladu a předtrénování na více datových sadách. Náš systém vyhodnocujeme pomocí automatických metod (korpusové metriky, simulace uživatele), lidského vyhodno- cení v rámci soutěže DSTC 9 shared task challenge (kde se náš systém umístil na třetím místě z 10) a také rozsáhlé manuální analýzy chyb. Naše metoda podstatně překonává baseline na benchmarku MultiWOZ a vykazuje výsledky konkurenceschopné s nejmod- ernějšími end-to-end dialogovými systémy. 1
Current dialogue systems typically consist of separate components, which are manu- ally engineered to a large part and need extensive annotation. End-to-end trainable sys- tems exist but produce lower-quality, unreliable outputs. The recent transformer-based pre-trained language models such as GPT-2 brought considerable progress to language modelling, but they rely on huge amounts of textual data, which are not available for common dialogue domains. Therefore, training these models runs a high risk of overfit- ting. To overcome these obstacles, we propose a novel end-to-end dialogue system called AuGPT. We add auxiliary training objectives to use training data more efficiently, and we use massive data augmentation via back-translation and pretraining on multiple datasets to increase data volume and diversity. We evaluate our system using automatic methods (corpus-based metrics, user simulation), human evaluation as part of the DSTC 9 shared task challenge (where our system placed 3rd out of 10), as well as extensive manual error analysis. Our method substantially outperforms the baseline on the MultiWOZ bench- mark and shows competitive results with state-of-the-art end-to-end dialogue systems. 1