Automatic detection of lexical borrowings
Automatická detekce přejatých slov
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/203152Identifikátory
SIS: 268407
Kolekce
- Kvalifikační práce [11982]
Autor
Vedoucí práce
Konzultant práce
Žabokrtský, Zdeněk
Oponent práce
Hana, Jiří
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Informatika - Jazykové technologie a počítačová lingvistika
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
10. 9. 2025
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
přejatá slova|automatická detekce|jazykové zdrojeKlíčová slova (anglicky)
lexical borrowings|automatic detection|language data resourcesTato diplomová práce představuje komplexní studii lexikálních výpůjček v češtině, kombinující obohacování jazykového zdroje s výpočetními experimenty zaměřenými na automatickou detekci přejatých slov. Tyto experimenty byly dále rozšířeny na čtyři další jazyky. V první části se práce zaměřuje na obohacení derivačního lexikálního zdroje Deri- Net 2.2 o strukturované etymologické informace. Za tímto účelem byl automaticky zpra- cován Český etymologický slovník pomocí automatické metody vyvinuté v rámci této práce, což vedlo ke vzniku Českého etymologického lexikonu 1.0. Data z tohoto lexikonu byla následně integrována do nové verze DeriNetu 2.3, čímž vznikl unikátní zdroj propo- jující etymologické a derivační informace. Součástí práce je také originální analýza rozdílů v distribuci a morfologii mezi domácími a přejatými slovy v češtině. Závěrečná část se vě- nuje automatické detekci přejatých slov pomocí klasifikačních experimentů provedených na datech z češtiny, polštiny, němčiny, ruštiny a švédštiny. Výsledky ukazují, že jazy- kové rysy, jako velikost derivačního stromu a kategorie slovního druhu, mohou přispět ke zvýšení úspěšnosti modelu. Nejlepších výsledků bylo dosaženo na polských datech, kde nejlepší model dosáhl F1 skóre rovné 0,92.
This thesis presents a comprehensive study of lexical borrowings in Czech, combining resource development with computational experiments on automatic loanword detection, extended to four additional languages. The first part of the thesis focuses on enriching the Czech derivational lexical resource DeriNet 2.2 with structured etymological informa- tion. To this end, the Czech Etymological Dictionary was processed using an automatic extraction method developed as part of this work, resulting in the Czech Etymological Lexicon 1.0. The information from this lexicon was integrated into DeriNet 2.3, creating a unique resource that links etymological and derivational information. The thesis also provides an original analysis of the distributional and morphological differences between native and borrowed Czech words. The final part of the thesis investigates automatic loanword detection through a series of classification experiments on the Czech, German, Polish, Russian, and Swedish datasets. The results show that linguistic features, such as the size of the derivational tree and the part-of-speech category, can enhance model performance. The best results were achieved on Polish data, with an F1 score of 0.92.
