dc.contributor.advisor | Libovický, Jindřich | |
dc.creator | Al Ali, Adnan | |
dc.date.accessioned | 2023-11-06T14:42:02Z | |
dc.date.available | 2023-11-06T14:42:02Z | |
dc.date.issued | 2023 | |
dc.identifier.uri | http://hdl.handle.net/20.500.11956/184287 | |
dc.description.abstract | Neural networks have seen a spike in popularity in natural language processing in re- cent years. They consistently outperform the traditional methods and require less human labor to perfect as they are trained unsupervised on large text corpora. However, these corpora may contain unwanted elements such as biases. We inspect multiple language models, primarily focusing on a Czech monolingual model - RobeCzech. In the first part of this work, we present a dynamic benchmarking tool for identifying gender stereotypes in a language model. We present the tool to a group of annotators to create a dataset of biased sentences. In the second part, we introduce a method of measuring the model's perceived political values of men and women and compare them to real-world data. We argue that our proposed method provides significant advantages over other methods in our knowledge. We find no strong systematic beliefs or gender biases in the measured political values. We include all the code and created datasets in the attachment. 1 | en_US |
dc.description.abstract | V posledných rokoch zasznamenali neurónové siete prudký nárast popularity v oblasti spracovania prirodzeného jazyka. Konzistentne prekonávajú tradičné metódy a vyžadujú menej ľudskej práce na zdokonaľovanie, nakoľko sú trénované bez učiteľa na rozsiahlych textových korpusoch. Tieto korpusy však môžu obsahovať nechcené javy, akými sú pred- sudky. V práci skúmame viacero modelov, s dôrazom najmä na český monolinguálny mo- del - RobeCzech. V prvej časti práce predstavujeme nástroj na dynamický benchmarking slúžiaci na identifikáciu rodových stereotypov v jazykovom modeli. Následne tento nástroj predkladáme skupine anotátorstva, čím získavame dátovú sadu stereotypných viet. V dru- hej časti práce navrhujeme metódu merania politických hodnôt mužov a žien naučených v jazykovom modeli a porovnávame tieto hodnoty so skutočnými dátami. Dovoľujeme si tvrdiť, že naša metóda má značné výhody oproti iným metódam, o ktorých vieme. V modeloch nenachádzame žiadne silné systematické presvedčenia ani rodové stereotypy. V prílohe pripájame zdrojový kód a vytvorené dátové sady. 1 | cs_CZ |
dc.language | English | cs_CZ |
dc.language.iso | en_US | |
dc.publisher | Univerzita Karlova, Matematicko-fyzikální fakulta | cs_CZ |
dc.subject | genderové stereotypy|BERT|větná reprezetace|embedding | cs_CZ |
dc.subject | gender bias|BERT|sentence representations|embedding | en_US |
dc.title | Gender stereotypes in neural sentence representations | en_US |
dc.type | bakalářská práce | cs_CZ |
dcterms.created | 2023 | |
dcterms.dateAccepted | 2023-09-07 | |
dc.description.department | Ústav formální a aplikované lingvistiky | cs_CZ |
dc.description.department | Institute of Formal and Applied Linguistics | en_US |
dc.description.faculty | Matematicko-fyzikální fakulta | cs_CZ |
dc.description.faculty | Faculty of Mathematics and Physics | en_US |
dc.identifier.repId | 251321 | |
dc.title.translated | Genderové stereotypy v neuronových reprezentacích vět | cs_CZ |
dc.contributor.referee | Dušek, Ondřej | |
thesis.degree.name | Bc. | |
thesis.degree.level | bakalářské | cs_CZ |
thesis.degree.discipline | Informatika se specializací Umělá inteligence | cs_CZ |
thesis.degree.discipline | Computer Science with specialisation in Artificial Intelligence | en_US |
thesis.degree.program | Informatika | cs_CZ |
thesis.degree.program | Computer Science | en_US |
uk.thesis.type | bakalářská práce | cs_CZ |
uk.taxonomy.organization-cs | Matematicko-fyzikální fakulta::Ústav formální a aplikované lingvistiky | cs_CZ |
uk.taxonomy.organization-en | Faculty of Mathematics and Physics::Institute of Formal and Applied Linguistics | en_US |
uk.faculty-name.cs | Matematicko-fyzikální fakulta | cs_CZ |
uk.faculty-name.en | Faculty of Mathematics and Physics | en_US |
uk.faculty-abbr.cs | MFF | cs_CZ |
uk.degree-discipline.cs | Informatika se specializací Umělá inteligence | cs_CZ |
uk.degree-discipline.en | Computer Science with specialisation in Artificial Intelligence | en_US |
uk.degree-program.cs | Informatika | cs_CZ |
uk.degree-program.en | Computer Science | en_US |
thesis.grade.cs | Výborně | cs_CZ |
thesis.grade.en | Excellent | en_US |
uk.abstract.cs | V posledných rokoch zasznamenali neurónové siete prudký nárast popularity v oblasti spracovania prirodzeného jazyka. Konzistentne prekonávajú tradičné metódy a vyžadujú menej ľudskej práce na zdokonaľovanie, nakoľko sú trénované bez učiteľa na rozsiahlych textových korpusoch. Tieto korpusy však môžu obsahovať nechcené javy, akými sú pred- sudky. V práci skúmame viacero modelov, s dôrazom najmä na český monolinguálny mo- del - RobeCzech. V prvej časti práce predstavujeme nástroj na dynamický benchmarking slúžiaci na identifikáciu rodových stereotypov v jazykovom modeli. Následne tento nástroj predkladáme skupine anotátorstva, čím získavame dátovú sadu stereotypných viet. V dru- hej časti práce navrhujeme metódu merania politických hodnôt mužov a žien naučených v jazykovom modeli a porovnávame tieto hodnoty so skutočnými dátami. Dovoľujeme si tvrdiť, že naša metóda má značné výhody oproti iným metódam, o ktorých vieme. V modeloch nenachádzame žiadne silné systematické presvedčenia ani rodové stereotypy. V prílohe pripájame zdrojový kód a vytvorené dátové sady. 1 | cs_CZ |
uk.abstract.en | Neural networks have seen a spike in popularity in natural language processing in re- cent years. They consistently outperform the traditional methods and require less human labor to perfect as they are trained unsupervised on large text corpora. However, these corpora may contain unwanted elements such as biases. We inspect multiple language models, primarily focusing on a Czech monolingual model - RobeCzech. In the first part of this work, we present a dynamic benchmarking tool for identifying gender stereotypes in a language model. We present the tool to a group of annotators to create a dataset of biased sentences. In the second part, we introduce a method of measuring the model's perceived political values of men and women and compare them to real-world data. We argue that our proposed method provides significant advantages over other methods in our knowledge. We find no strong systematic beliefs or gender biases in the measured political values. We include all the code and created datasets in the attachment. 1 | en_US |
uk.file-availability | V | |
uk.grantor | Univerzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistiky | cs_CZ |
thesis.grade.code | 1 | |
uk.publication-place | Praha | cs_CZ |
uk.thesis.defenceStatus | O | |