Automatic generation of medical reports from chest X-rays in Czech
Automatické generování lékařských zpráv z rentgenových snímků hrudníku v češtině
diploma thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/176356Identifiers
Study Information System: 246714
Collections
- Kvalifikační práce [10130]
Author
Advisor
Referee
Libovický, Jindřich
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computer Science - Software and Data Engineering
Department
Institute of Formal and Applied Linguistics
Date of defense
13. 9. 2022
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
zpracování obrázků|generování přirozeného jazyka|lékařství|neuronové sítěKeywords (English)
image processing|natural language generation|medical|neural networksTato práce se zabývá problémem automatického generovaní lékařských zpráv v českém jazyce na základě vstupních rentgenových snímků hrudníku pomocí hlubokých neurono- vých sítí. První část se zabývá analýzou problému samotného včetně porovnání existují- cích řešení z několika společných úhlů pohledu. Za účelem interpretace lékařských snímků v českém jazyce představujeme natrénovaný český GPT-2 model specializovaný na lékař- ské texty, který vychází z původního předtrénovaného anglického GPT-2 modelu, spolu s jeho vyhodnocením. Ve druhé části je vytvořené české GPT-2 použito pro trénování modelu neuronové sítě pro generování lékařských zpráv. Trénování bylo provedeno na volně dostupných datech spolu s předzpracováním dat a jejich úpravou pro český jazyk. Dále jsou výsledky modelu diskutovány a vyhodnoceny pomocí standardních metrik pro zpracování přirozeného jazyka za účelem určení výkonnosti. 1
This thesis deals with the problem of automatic generation of medical reports in the Czech language based on the input chest X-ray images using deep neural networks. The first part deals with the analysis of the problem itself including a comparison of existing solutions from several common points of view. In order to interpret medical images in the Czech language, we present a fine-tuned Czech GPT-2 model specialized on medical texts based on the original pre-trained English GPT-2 model along with its evaluation. In the second part, the created Czech GPT-2 is used for training a neural network model for generating medical reports. The training was conducted on freely available data along with data preprocessing and their adjustment for the Czech language. Furthermore, the model results are discussed and evaluated using standard metrics for natural language processing to determine the performance. 1