Splitting word compounds

Oberländer, Jonathan

Metody pro rozdělování slovních složenin

diplomová práce (NEOBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (75.70Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/16926

Identifikátory

SIS: 177179

Katalog UK: 990021327180106986

Oponent práce

Hlaváčová, Jaroslava

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Matematická lingvistika

Katedra / ústav / klinika

Ústav formální a aplikované lingvistiky

Datum obhajoby

30. 1. 2017

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Angličtina

Známka

Neprospěl

Klíčová slova (česky)

zpracování přorozeného jazyka, slovní složeniny, rozdělování slovních složenin

Klíčová slova (anglicky)

natural language processing, word compounds, decompouding

Jazyky, jako je němčina, holandština, skandinávské jazyky nebo řečtina, na rozdíl od angličtiny netvoří kompozita jako víceslovné výrazy, ale spojením jednotlivých částí do nového slova bez ortografického oddělení. To představuje problém pro řadu úloh zpracování přirozeného jazyka, jako je například statistický strojový překlad či vyhledávání informací. Většina předešlých prací na téma rozkladu složenin na jejich částí se zaměřovala na němčinu. V této práci jsme vyvinuli nový jednoduchý systém založený na nařízeném strojovém učení pro automatický rozklad složenin pro tři reprezentativní kompozitní jazyky: němčina, švédština a maďarština. Součástí práce je vytvoření multilinguální evaluační datové sady z lékařské domény anotováním složenin získaných z korpusu EMEA a vyhodnocení několika variant našeho systému a srovnání s předchozími přístupy. Powered by TCPDF (www.tcpdf.org)

Abstrakt (anglicky)

Unlike the English language, languages such as German, Dutch, the Skandinavian languages or Greek form compounds not as multi-word expressions, but by combining the parts of the compound into a new word without any orthographical separation. This poses problems for a variety of tasks, such as Statistical Machine Translation or Information Retrieval. Most previous work on the subject of splitting compounds into their parts, or ``decompounding'' has focused on German. In this work, we create a new, simple, unsupervised system for automatic decompounding for three representative compounding languages: German, Swedish, and Hungarian. A multi-lingual evaluation corpus in the medical domain is created from the EMEA corpus, and annotated with regards to compounding. Finally, several variants of our system are evaluated and compared to previous work. Powered by TCPDF (www.tcpdf.org)

Citace dokumentu

Metadata

Zobrazit celý záznam