Normalizace pojmenovaných entit v českých textech

Kubát, Petr

Named Entity Normalization in Czech Texts

bakalářská práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (54.51Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/72570

Identifikátory

SIS: 145880

Katalog UK: 990017837940106986

Oponent práce

Popel, Martin

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Obecná informatika

Katedra / ústav / klinika

Ústav formální a aplikované lingvistiky

Datum obhajoby

16. 6. 2014

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Čeština

Známka

Výborně

Klíčová slova (česky)

pojmenované entity, normalizace, pravidlový systém

Klíčová slova (anglicky)

named entities, normalization, rule-based system

Pojmenované entity jsou slovní spojení, která v textu označují objekty reálného světa. Normalizací entit nazveme jejich převod do základního tvaru. Práce se zabývá vytvořením pravidlové procedury určené k normalizaci pojmenovaných entit v českých textech. Proces návrhu jednotlivých pravidel této procedury je důkladně zmapován. Důraz je kladen na to, aby každé pravidlo bylo motivováno příklady reálných entit. Za účelem dosažení co největší úspěšnosti jsou také analyzovány některé aspekty syntaxe českého jazyka. Na základě teoretického popisu procedury je dále implementován normalizační program a jeho úspěšnost je vyhodnocena srovnáním s ručně normalizovanými entitami. Ve spojení s již existujícími nástroji pro automatické rozpoznávání pojmenovaných entit v textu je možné tento normalizátor využít v jiných procesech strojového zpracování textu, například překladu do jiného jazyka, vyhledávání a kategorizaci apod. Powered by TCPDF (www.tcpdf.org)

Abstrakt (anglicky)

Named entities are collocations used to refer to real world objects in text. Named entity normalization is a process of generating the basic form for a given named entity. The thesis is focused on creating a rule- based procedure for named entity normalization in Czech texts. The process of designing individual rules is closely examined. Stress is laid on the fact that each rule is motivated by entities from real-world texts. Additionally, some aspects of Czech language syntax are analyzed in order to achieve the highest possible accuracy. Based on the theoretical description of the procedure, a normalization application is implemented, and its accuracy is evaluated by comparison with manually normalized entities. Together with already existing tools for automatic named entity recognition, it is possible to use this normalizer in other text processing tasks, such as machine translation, searching and categorization, etc. Powered by TCPDF (www.tcpdf.org)

Citace dokumentu

Metadata

Zobrazit celý záznam