Automatická extrakce konkordancí z Internetu
Automatic concordance extraction from the Internet
bakalářská práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/84465Identifikátory
SIS: 166317
Kolekce
- Kvalifikační práce [10932]
Autor
Vedoucí práce
Konzultant práce
Vidová Hladká, Barbora
Oponent práce
Vidová Hladká, Barbora
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Obecná informatika
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
16. 6. 2016
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Čeština
Známka
Výborně
Klíčová slova (česky)
automatická extrakce, konkordance, internetKlíčová slova (anglicky)
automatic extraction, concordance, internetKonkordance jsou věty, které obsahují zadané cílové slovo. Jsou důležitými předměty zkoumání ve všech oblastech lingvistiky. Velký počet konkordancí má také využití při řešení problému lexikální desambiguace. Jazykové korpusy ale neposkytují dostatečný počet konkordancí například některých anglických sloves. V této práci se zabýváme návrhem a implementací konzolové aplikace pro automatickou extrakci zadaného počtu anglických konkordancí. Aplikace bere na vstupu cílové slovo, slovní druh a počet vět, a následně na Internetu vyhledá a extrahuje zadaný počet anglických vět obsahujících cílové slovo jako zadaný slovní druh. Vytvořili jsme také knihovnu v Pythonu, s jejíž pomocí se dá aplikace modifikovat pro libovolný jiný jazyk, a zveřejnili jsme ji na serveru PyPI. Součástí práce je také webová stránka umožnující vyzkoušet si aplikaci přes webové rozhraní. 1
Concordances are sentences containing given target word. They are profitable research objects in all linguistics fields. A big amount of concordances is exploited during lexical desambiguation problem solving. Language corpora are not able to supply sufficient number of concordances of some English verbs. In this thesis we elaborate a design and implementation of a console application for automatic extraction of given number of English concordances. The application gets on its input a target word, a part-of-speech and a number of sentences. Consecutively it seeks out and extracts on the Internet desired number of English sentences containing a target word as given part-of-speech. We created also a Python library which allows a modification of the application to any arbitrary language. We published it on PyPI server. A part of a work is also a webpage allowing users to try out the application through web interface. 1