Vícejazyčná databáze kolokací

Helcl, Jindřich

Vícejazyčná databáze kolokací

diploma thesis (DEFENDED)

View/Open

Záznam o průběhu obhajoby (79.01Kb)

Permanent link

http://hdl.handle.net/20.500.11956/72085

Identifiers

Study Information System: 117220

Referee

Mareček, David

Faculty / Institute

Faculty of Mathematics and Physics

Discipline

Computational Linguistics

Department

Institute of Formal and Applied Linguistics

Date of defense

8. 9. 2014

Publisher

Univerzita Karlova, Matematicko-fyzikální fakulta

Language

English

Grade

Very good

Keywords (Czech)

Kolokace, zpracování přirozeného jazyka, statistické metody, clustering, čeština, angličtina, databáze, webový přístup

Keywords (English)

Collocations, natural language processing, statistical methods, clustering, Czech, English, databases, web access

Kolokace jsou skupiny slov, které se v daném jazyce vyskytují častěji spolu, nežli odděleně. Patří mezi ně také spojení, která dávají několika nezávislým slovům nový význam. Tato práce se zabývá nalezením kolokací v objemných datech a vytvořením databáze sloužící k jejich vyhledávání. Pro nalezení kolokací v textu počítáme hodnotu Pointwise Mutual Information založenou na počtu výskytů jednotlivých skupin slov v korpusu. Slova s nejvyšší hodnotou PMI jsou kandidáty na vhodné kolokace. Vybrané kolokace jsou uložené do databáze ve formátu použitelném pro vyhledávání pomocí Apache Lucene. Součástí práce je k vytvořené databázi přidat webové rozhraní, které umožňuje rychlý a jednoduchý způsob pro vyhledávání kolokací. Pokud by tato služba byla dostatečně rychlá a kolokace kvalitní, mohli by ji používat překladatelé k nacházení vhodných ekvivalentů v cílovém jazyce. Také může být používána studenty cizího jazyka k rozšiřování slovní zásoby. Taková databáze bude tvořena nezávisle v několika jazycích, mezi nimiž bude minimálně Čeština a Angličtina. Powered by TCPDF (www.tcpdf.org)

Abstract (English)

Collocations are groups of words which are co-occurring more often than appearing separately. They also include phrases that give a new meaning to a group of unrelated words. This thesis is aimed to find collocations in large data and to create a database that allows their retrieval. The Pointwise Mutual Information, a value based on word frequency, is computed for finding the collocations. Words with the highest value of PMI are considered candidates for good collocations. Chosen collocations are stored in a database in a format that allows searching with Apache Lucene. A part of the thesis is to create a Web user interface as a quick and easy way to search collocations. If this service is fast enough and the collocations are good, translators will be able to use it for finding proper equivalents in the target language. Students of a foreign language will also be able to use it to extend their vocabulary. Such database will be created independently in several languages including Czech and English. Powered by TCPDF (www.tcpdf.org)

Citace dokumentu

Metadata

Show full item record