Data-to-Text Generation with Neural Language Models
Generování textu z dat s neuronovými jazykovými modely
dissertation thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/193018Identifiers
Study Information System: 213338
Collections
- Kvalifikační práce [11242]
Author
Advisor
Referee
Sripada, Yaji
Krahmer, Emiel
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computational linguistics
Department
Institute of Formal and Applied Linguistics
Date of defense
5. 9. 2024
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Pass
Keywords (Czech)
generování textu z dat|generování přirozeného jazyka|zpracování přirozeného jazyka|architektura transformer|předtrénované jazykové modely|velké jazykové modelyKeywords (English)
data-to-text generation|natural language generation|natural language processing|transformer architecture|pretrained language models|large language modelsSystémy pro generování textu z dat by měly generovat texty odpovídající co nej- přesněji vstupním datům. Pravidlové systémy tento aspekt zaručují, ale zaostávají v plynulosti výstupů a možnostech přizpůsobení pro nové domény. Naopak neu- ronové jazykové modely zvládají snadno generovat plynulé texty a přizpůsobovat se novým doménám, ale jsou notoricky náchylné k produkci nepřesných výstupů. V této práci zkoumáme, jak efektivně zakomponovat do systémů pro generování textu z dat neuronové modely tak, abychom propojili výhody obou typů systémů. Naše přístupy zakládáme na předtrénovaných jazykových modelech architektury transformer. Tyto modely primárně používáme jako stavební bloky, díky kterým mohou být systémy pro generování textu robustní a efektivně se učit z trénovacích dat. Spolu s tím představujeme automatické evaluační metriky pro odhalování chyb ve výstupech a sadu nástrojů pro předzpracování a vizualizaci datasetů pro generování textu z dat. Analyzujeme také chování předtrénovaných a velkých jazykových modelů ve specifických případech jako je popis jednotlivých relaci ve znalostních grafech a generování textů ze standardních datových formátů. Z našich experimentů vyplývá, že ačkoli k použití neuronových jazykových modelů při generování textu z dat je potřeba přistupovat s rozmyslem,...
Data-to-text generation systems need to produce texts with high levels of seman- tic accuracy. Rule-based systems can guarantee this aspect, but their fluency and adaptability to new domains remain limited. Meanwhile, neural language models can easily generate fluent texts and adapt to new domains but are notoriously prone to producing inaccurate outputs. This thesis explores how to efficiently employ neural components in data-to-text generation systems to get the best of both worlds. We focus on approaches based on pretrained transformer language models. Primarily, the models serve as building blocks for data-efficient and robust data-to-text generation systems. Along with that, we introduce model-based evaluation metrics, focusing on detecting errors in data-to-text outputs, and a toolkit for preprocessing and visualizing data-to-text generation datasets. We also analyze the behavior of pretrained and large language models in specific scenarios, including describing individual relations in knowledge graphs and generating texts from standard data formats. We conclude that while employing neural language models in data-to-text generation remains a delicate endeavor, neural components can improve the fluency of the output texts and make the systems adaptable to new domains. At the same time, the...
Citace dokumentu
Metadata
Show full item recordRelated items
Showing items related by title, author, creator and subject.
-
Maturitní zkouška z českého jazyka v úpravě pro neslyšící ve světle testování češtiny jako cizího jazyka
Defence status: DEFENDEDAndrejsek, Jan (Univerzita Karlova, Filozofická fakulta, 2015)Date of defense: 4. 2. 2015Práce se na pozadí dosavadních výzkumů čtenářské gramotnosti u sluchově postižených žáků zabývá modifikovanou maturitní zkouškou z českého jazyka v úpravě pro neslyšící, kterou v České republice skládají neslyšící žáci ve ... -
Teaching English through English
Defence status: DEFENDEDSmejkalová, Julie (Univerzita Karlova, Pedagogická fakulta, 2014)Date of defense: 12. 9. 2014Diplomová práce se zabývá rolí cílového jazyka ve výuce angličtiny. Cílem práce je prozkoumat vliv výuky prostřednictvím cílového jazyka na rozvoj komunikativní kompetence žáků prvního stupně základní školy. Teoretická ... -
Úvod do teorie jazykové správnosti
Defence status: DEFENDEDBeneš, Martin (Univerzita Karlova, Filozofická fakulta, 2017)Date of defense: 23. 6. 2017Introduction to the Theory of Language Correctness. The theme of this Thesis is the novel conceptualization of the subject field, which is, in the Czech context, traditionally dealt with within the theory of language ...