Automatizace generování popisů produktů pomocí neuronových jazykových modelů
Automatization of Generating Product Descriptions With Neural Language Models
bachelor thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/188293Identifiers
Study Information System: 256171
Collections
- Kvalifikační práce [11322]
Author
Advisor
Referee
Helcl, Jindřich
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computer Science with specialisation in Web and Data Oriented Programming
Department
Institute of Formal and Applied Linguistics
Date of defense
5. 2. 2024
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Czech
Grade
Excellent
Keywords (Czech)
generování textu z dat|jazykové modely|ecommerceKeywords (English)
data-to-text generation|language models|ecommercePopisky produktů jsou důležitou součástí prezentace zboží v ecommerce. Tato bakalářská práce zkoumá možnosti použití jazykových modelů, založe- ných na architektuře Transformer, ke generování popisků produktů na zá- kladě textových informací o produktech. Během práce byla použita data z reálného eshopu a byly vyzkoušeny tři různé přístupy. Fine-tuning ma- lého modelu GPT2 small czech, využití modelu Mistral s překladem jeho vstupů a výstupů do angličtiny a přímé použití ChatGPT na českých da- tech. K vyhodnocení vygenerovaných textů byla použita kombinace auto- matických metrik a lidského hodnocení. Výsledkem je jasné pořadí těchto přístupů (ChatGPT, Mistral, GPT2 small czech) s tím, že se ukázalo, že pro použití v praxi není žádný z přístupů dostatečně spolehlivý.
Product descriptions are an important part of product presentation in e-commerce. This bachelor thesis explores the possibilities of using language models based on the Transformer architecture to generate product descrip- tions based on textual product information. Data from a real ecommerce store was used and three different approaches were tested during the work. Fine-tuning of the GPT2 small Czech model, using the Mistral model with the translation of its inputs and outputs into English and directly using Chat- GPT on the Czech data. A combination of automated metrics and human moderation was used to evaluate the generated texts. The result is a clear ranking of these approaches (ChatGPT, Mistral, GPT2 small Czech), with none proving sufficiently reliable for practical use.