Automatická extrakce konkordancí z Internetu
Automatic concordance extraction from the Internet
bachelor thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/84465Identifiers
Study Information System: 166317
CU Caralogue: 990020931850106986
Collections
- Kvalifikační práce [11338]
Author
Advisor
Consultant
Vidová Hladká, Barbora
Referee
Vidová Hladká, Barbora
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
General Computer Science
Department
Institute of Formal and Applied Linguistics
Date of defense
16. 6. 2016
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Czech
Grade
Excellent
Keywords (Czech)
automatická extrakce, konkordance, internetKeywords (English)
automatic extraction, concordance, internetKonkordance jsou věty, které obsahují zadané cílové slovo. Jsou důležitými předměty zkoumání ve všech oblastech lingvistiky. Velký počet konkordancí má také využití při řešení problému lexikální desambiguace. Jazykové korpusy ale neposkytují dostatečný počet konkordancí například některých anglických sloves. V této práci se zabýváme návrhem a implementací konzolové aplikace pro automatickou extrakci zadaného počtu anglických konkordancí. Aplikace bere na vstupu cílové slovo, slovní druh a počet vět, a následně na Internetu vyhledá a extrahuje zadaný počet anglických vět obsahujících cílové slovo jako zadaný slovní druh. Vytvořili jsme také knihovnu v Pythonu, s jejíž pomocí se dá aplikace modifikovat pro libovolný jiný jazyk, a zveřejnili jsme ji na serveru PyPI. Součástí práce je také webová stránka umožnující vyzkoušet si aplikaci přes webové rozhraní. 1
Concordances are sentences containing given target word. They are profitable research objects in all linguistics fields. A big amount of concordances is exploited during lexical desambiguation problem solving. Language corpora are not able to supply sufficient number of concordances of some English verbs. In this thesis we elaborate a design and implementation of a console application for automatic extraction of given number of English concordances. The application gets on its input a target word, a part-of-speech and a number of sentences. Consecutively it seeks out and extracts on the Internet desired number of English sentences containing a target word as given part-of-speech. We created also a Python library which allows a modification of the application to any arbitrary language. We published it on PyPI server. A part of a work is also a webpage allowing users to try out the application through web interface. 1