Show simple item record

Genderové stereotypy v neuronových reprezentacích vět
dc.contributor.advisorLibovický, Jindřich
dc.creatorAl Ali, Adnan
dc.date.accessioned2023-11-06T14:42:02Z
dc.date.available2023-11-06T14:42:02Z
dc.date.issued2023
dc.identifier.urihttp://hdl.handle.net/20.500.11956/184287
dc.description.abstractNeural networks have seen a spike in popularity in natural language processing in re- cent years. They consistently outperform the traditional methods and require less human labor to perfect as they are trained unsupervised on large text corpora. However, these corpora may contain unwanted elements such as biases. We inspect multiple language models, primarily focusing on a Czech monolingual model - RobeCzech. In the first part of this work, we present a dynamic benchmarking tool for identifying gender stereotypes in a language model. We present the tool to a group of annotators to create a dataset of biased sentences. In the second part, we introduce a method of measuring the model's perceived political values of men and women and compare them to real-world data. We argue that our proposed method provides significant advantages over other methods in our knowledge. We find no strong systematic beliefs or gender biases in the measured political values. We include all the code and created datasets in the attachment. 1en_US
dc.description.abstractV posledných rokoch zasznamenali neurónové siete prudký nárast popularity v oblasti spracovania prirodzeného jazyka. Konzistentne prekonávajú tradičné metódy a vyžadujú menej ľudskej práce na zdokonaľovanie, nakoľko sú trénované bez učiteľa na rozsiahlych textových korpusoch. Tieto korpusy však môžu obsahovať nechcené javy, akými sú pred- sudky. V práci skúmame viacero modelov, s dôrazom najmä na český monolinguálny mo- del - RobeCzech. V prvej časti práce predstavujeme nástroj na dynamický benchmarking slúžiaci na identifikáciu rodových stereotypov v jazykovom modeli. Následne tento nástroj predkladáme skupine anotátorstva, čím získavame dátovú sadu stereotypných viet. V dru- hej časti práce navrhujeme metódu merania politických hodnôt mužov a žien naučených v jazykovom modeli a porovnávame tieto hodnoty so skutočnými dátami. Dovoľujeme si tvrdiť, že naša metóda má značné výhody oproti iným metódam, o ktorých vieme. V modeloch nenachádzame žiadne silné systematické presvedčenia ani rodové stereotypy. V prílohe pripájame zdrojový kód a vytvorené dátové sady. 1cs_CZ
dc.languageEnglishcs_CZ
dc.language.isoen_US
dc.publisherUniverzita Karlova, Matematicko-fyzikální fakultacs_CZ
dc.subjectgenderové stereotypy|BERT|větná reprezetace|embeddingcs_CZ
dc.subjectgender bias|BERT|sentence representations|embeddingen_US
dc.titleGender stereotypes in neural sentence representationsen_US
dc.typebakalářská prácecs_CZ
dcterms.created2023
dcterms.dateAccepted2023-09-07
dc.description.departmentÚstav formální a aplikované lingvistikycs_CZ
dc.description.departmentInstitute of Formal and Applied Linguisticsen_US
dc.description.facultyMatematicko-fyzikální fakultacs_CZ
dc.description.facultyFaculty of Mathematics and Physicsen_US
dc.identifier.repId251321
dc.title.translatedGenderové stereotypy v neuronových reprezentacích větcs_CZ
dc.contributor.refereeDušek, Ondřej
thesis.degree.nameBc.
thesis.degree.levelbakalářskécs_CZ
thesis.degree.disciplineInformatika se specializací Umělá inteligencecs_CZ
thesis.degree.disciplineComputer Science with specialisation in Artificial Intelligenceen_US
thesis.degree.programInformatikacs_CZ
thesis.degree.programComputer Scienceen_US
uk.thesis.typebakalářská prácecs_CZ
uk.taxonomy.organization-csMatematicko-fyzikální fakulta::Ústav formální a aplikované lingvistikycs_CZ
uk.taxonomy.organization-enFaculty of Mathematics and Physics::Institute of Formal and Applied Linguisticsen_US
uk.faculty-name.csMatematicko-fyzikální fakultacs_CZ
uk.faculty-name.enFaculty of Mathematics and Physicsen_US
uk.faculty-abbr.csMFFcs_CZ
uk.degree-discipline.csInformatika se specializací Umělá inteligencecs_CZ
uk.degree-discipline.enComputer Science with specialisation in Artificial Intelligenceen_US
uk.degree-program.csInformatikacs_CZ
uk.degree-program.enComputer Scienceen_US
thesis.grade.csVýborněcs_CZ
thesis.grade.enExcellenten_US
uk.abstract.csV posledných rokoch zasznamenali neurónové siete prudký nárast popularity v oblasti spracovania prirodzeného jazyka. Konzistentne prekonávajú tradičné metódy a vyžadujú menej ľudskej práce na zdokonaľovanie, nakoľko sú trénované bez učiteľa na rozsiahlych textových korpusoch. Tieto korpusy však môžu obsahovať nechcené javy, akými sú pred- sudky. V práci skúmame viacero modelov, s dôrazom najmä na český monolinguálny mo- del - RobeCzech. V prvej časti práce predstavujeme nástroj na dynamický benchmarking slúžiaci na identifikáciu rodových stereotypov v jazykovom modeli. Následne tento nástroj predkladáme skupine anotátorstva, čím získavame dátovú sadu stereotypných viet. V dru- hej časti práce navrhujeme metódu merania politických hodnôt mužov a žien naučených v jazykovom modeli a porovnávame tieto hodnoty so skutočnými dátami. Dovoľujeme si tvrdiť, že naša metóda má značné výhody oproti iným metódam, o ktorých vieme. V modeloch nenachádzame žiadne silné systematické presvedčenia ani rodové stereotypy. V prílohe pripájame zdrojový kód a vytvorené dátové sady. 1cs_CZ
uk.abstract.enNeural networks have seen a spike in popularity in natural language processing in re- cent years. They consistently outperform the traditional methods and require less human labor to perfect as they are trained unsupervised on large text corpora. However, these corpora may contain unwanted elements such as biases. We inspect multiple language models, primarily focusing on a Czech monolingual model - RobeCzech. In the first part of this work, we present a dynamic benchmarking tool for identifying gender stereotypes in a language model. We present the tool to a group of annotators to create a dataset of biased sentences. In the second part, we introduce a method of measuring the model's perceived political values of men and women and compare them to real-world data. We argue that our proposed method provides significant advantages over other methods in our knowledge. We find no strong systematic beliefs or gender biases in the measured political values. We include all the code and created datasets in the attachment. 1en_US
uk.file-availabilityV
uk.grantorUniverzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistikycs_CZ
thesis.grade.code1
uk.publication-placePrahacs_CZ
uk.thesis.defenceStatusO


Files in this item

Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record


© 2017 Univerzita Karlova, Ústřední knihovna, Ovocný trh 560/5, 116 36 Praha 1; email: admin-repozitar [at] cuni.cz

Za dodržení všech ustanovení autorského zákona jsou zodpovědné jednotlivé složky Univerzity Karlovy. / Each constituent part of Charles University is responsible for adherence to all provisions of the copyright law.

Upozornění / Notice: Získané informace nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora. / Any retrieved information shall not be used for any commercial purposes or claimed as results of studying, scientific or any other creative activities of any person other than the author.

DSpace software copyright © 2002-2015  DuraSpace
Theme by 
@mire NV