Generating text from structured data
Generování textu ze strukturovaných dat
bakalářská práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/127962Identifikátory
SIS: 232616
Kolekce
- Kvalifikační práce [10691]
Autor
Vedoucí práce
Oponent práce
Kasner, Zdeněk
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Obecná informatika
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
2. 7. 2021
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
generování textu|strukturovaná data|zpracování přirozeného jazyka|neuronové sítěKlíčová slova (anglicky)
text generation|structured data|natural language processing|neural networksV tejto bakalárskej práci skúmame možnosti generovania textu v prirodzenom ja- zyku podmieneného štruktúrovanými vstupnými dátami. Konkrétne trénujeme hlboké neurónové siete na datasete RotoWire, ktorý obsahuje štatistické údaje o basketbalovom zápase spárované s ich súhrnmi. Najprv analyzujeme dataset a navrhneme niekoľko me- tód preprocessingu (napríklad Byte Pair Encoding). Následne trénujeme základný model založený na architektúre Encoder-Decoder na pripravenom datasete. Popíšeme niekoľko problémov základného modelu a skúmame niekoľko pokročilých neurónových architektúr, ktoré majú tieto problémy riešiť (Copy Attention, Content Selection, Content Planning). Naša analýza naznačuje, že modely nedokážu pochopiť štruktúru vstupných dát. Navr- hujeme preto metódu na zjednodušenie jej zložitosti. Náš najlepší model vytrénovaný na zjednodušených dátach prekonáva základný model o viac ako 5 bodov BLEU. 1
In this thesis we examine ways of conditionally generating document-scale natural language text given structured input data. Specifically we train Deep Neural Network models on RotoWire dataset containing statistical data about basketball matches paired with descriptive summaries. First, we analyse the dataset and propose several prepro- cessing methods (e.g. Byte Pair Encoding). Next, we train a baseline model based on the Encoder-Decoder architecture on the preprocessed dataset. We discuss several prob- lems of the baseline and explore advanced Deep Neural Network architectures that aim to solve them (Copy attention, Content Selection, Content Planning). We hypothesize that our models are not able to learn the structure of the input data and we propose a method reducing its complexity. Our best model trained on the simplified data manages to outperform the baseline by more than 5 BLEU points. 1