Word prediction using language models

Koutný, Michal

Word prediction using language models

bakalářská práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (79.97Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/42046

Identifikátory

SIS: 117041

Katalog UK: 990014994370106986

Oponent práce

Novák, Michal

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Programování

Katedra / ústav / klinika

Ústav formální a aplikované lingvistiky

Datum obhajoby

6. 9. 2012

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Angličtina

Známka

Výborně

Klíčová slova (česky)

word prediction, language model, autocompletion, assistive technology

Klíčová slova (anglicky)

word prediction, language model, autocompletion, assistive technology

Práce využívá ngramových jazykových modelů k usnadnění zadávání textů pomocí QWERTY klávesnice předvídáním psaných slov. Nejprve jsou představena existující obdobná řešení a položen teoretický základ práce. Následující analýza dělí problém do čtyř částí: trénování modelů, využití modelů k predikci, GUI komponenta a nástroje pro hodnocení. Byly použity jazyky Python a C++. Použité textové korpusy jsou z české a anglické Wikipedie (19 a 84 miliónů slov), k testům přizůsobení je též použit malý český korpus vzdělávacích textů. Pomocí definovaných metrik jsou ohodnocena různá nastavení. Nejlepší výsledek pro testovací data byl 0.44, resp. 0.55 úhozů na znak pro angličtinu, resp. češtinu.

Abstrakt (anglicky)

The thesis utilizes ngram language models to improve text entry with QWERTY keyboard by the means of word prediction. Related solutions are briedly introduced. Then follows theoretical background for the work. The analysis in the next part divides problems into four tasks: language model training, incorporating model for word prediction, GUI component and evaluation framework. The realization combines Python and C++. The used corpora come from Czech (19\,M words) and (84\,M words) English Wikipedia articles. A small corpus of Czech educative texts was used to test domain adaptation. The quality metrics are defined and various configuration are measured. The best solutions reduced keystrokes per character to 0.44, resp. 0.55 for English, resp. Czech on testing data.

Citace dokumentu

Metadata

Zobrazit celý záznam