Identifikace původu morfémů
Identification of morpheme origin
bakalářská práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/200833Identifikátory
SIS: 277588
Kolekce
- Kvalifikační práce [11983]
Autor
Vedoucí práce
Oponent práce
Mareček, David
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Informatika se specializací Umělá inteligence
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
20. 6. 2025
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Čeština
Známka
Výborně
Klíčová slova (česky)
morfologie|morfém|etymologie|"strojové učení"Klíčová slova (anglicky)
morphology|morpheme|etymology|"machine learning"Tato práce se zaměřuje na predikci etymologického původu jednotlivých morfémů v českých slovech. Cílem je určit z morfologicky segmentovaných vět, zda je morfém na- tivní, nebo přejatý, a pokud přejatý, přes které jazyky se do češtiny dostal. Vytvořili jsme ručně anotovaný dataset českých morfologicky segmentovaných vět, určený pro tré- nování a vyhodnocování modelů. Z dat jsme extrahovali rysy jako znakové n-gramy a typy morfémů. Na těchto datech jsme trénovali několik modelů strojového učení. Experi- mentovali jsme také se samoučením (technika učení bez učitele) a embeddingy morfémů i slov, tyto metody však nepřinesly žádné zlepšení. Nejlepší model, postavený na klasifi- kátoru MLP a využívající dodatečná data z etymologického slovníku, překonal všechna definovaná základní řešení včetně predikcí generovaných pomocí nejnovějšího LLM mo- delu o3 od OpenAI. Baseline řešení dosahuje vysokého skóre, predikce nativního původu pro všechny morfémy dosahuje F1 skóre 90,1 %, náš nejlepší model dosáhl 96,8 % a snížil tak chybovost tohoto přístupu o 67,7 %.
This thesis focuses on predicting the etymological origin of individual morphemes in Czech words. Given morphologically segmented sentences, the task is to determine for each morpheme whether it is native or borrowed, and if borrowed, to identify the languages through which it entered Czech. We created a manually annotated dataset of Czech sentences with morpheme-level etymology labels for model training and evaluation. Features such as character n-grams and lexical or positional morpheme types were used to train several supervised machine learning classifiers. We also experimented with morph and word embeddings, as well as semi-supervised self-training, but these did not improve performance. The best model was an MLP trained on extracted features and enriched with etymological dictionary data. It outperformed all baselines, including predictions by OpenAI's latest reasoning large language model, o3. Although the baseline F1 score is high, predicting all morphemes as native achieves 90.1 %, the best model reached 96.8 % and reduced the baseline error by 67.7 %.
