Cognate Identification in Spoken Language Data
Identifikace kognátů v mluvených datech
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/202840Identifikátory
SIS: 283369
Kolekce
- Kvalifikační práce [11978]
Autor
Vedoucí práce
Oponent práce
Macháček, Dominik
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Informatika - Umělá inteligence
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
8. 9. 2025
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
kognát|zpracování řeči|detekce kognátů|vícejazyčná řeč|Siamské neuronové sítě|fonetická podobnost|mel spektrogramy|reprezentace řeči|historická lingvistikaKlíčová slova (anglicky)
cognate|speech processing|cognate detection|multilingual speech|Siamese neural networks|phonetic similarity|mel spectrograms|speech embeddings|historical linguisticsTato práce přínáší nový přístup k detekci etymologicky příbuzných slov (kognátů) přímo z vícejazyčné mluvené řeči. Za tímto účelem představujeme dataset POD- CASTHEON, rozsáhlou kolekci segmentovaných mluvených slov s anotacemi kognátů odvozenými z databáze CogNet. Pro modelaci dat navrhujeme architekturu siamské neu- ronové sítě, která kombinuje konvoluční a transformerové enkodéry. Model vyhodnocu- jeme v úlohách binární klasifikace a vyhledávání a porovnáváme jej s metodami zpra- covávajícími text. Výsledky ukazují, že kognáty lze odhalit čistě z fonetického signálu, bez přístupu k přepisu a jazykovým značkám. Dále představujeme vizuální interaktivní nástroj pro zkoumání podobnosti kognátů v audio datech.
We present a novel approach to detecting etymologically related word pairs (cognates) directly from raw multilingual speech. To this end, we introduce the PODCASTHEON dataset, a large-scale collection of segmented spoken words aligned with cognate anno- tations derived from the CogNet database. We propose a Siamese neural architecture combining convolutional and Transformer-based encoders to learn a cross-linguistic pho- netic similarity embedding space. Our model is evaluated on both pairwise classification and retrieval tasks and benchmarked against text-based methods. Results demonstrate that phonetic information preserved in speech contains signal to support accurate cog- nate detection, offering a new modality for computational historical linguistics. We also introduce a visual interactive tool for exploring audio-based cognate similarity, enabling further linguistic analysis and low-resource lexicon development.
