Velký mnohojazyčný korpus
Velký mnohojazyčný korpus
diploma thesis (DEFENDED)
View/ Open
Permanent link
Study Information System: 106396
- Kvalifikační práce [11242]
Spousta, Miroslav
Faculty / Institute
Faculty of Mathematics and Physics
Computational Linguistics
Institute of Formal and Applied Linguistics
Date of defense
6. 9. 2011
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Very good
Keywords (Czech)
jazykový korpus, distribuované zpracováníKeywords (English)
language corpus, distributed processingV této diplomové práci je popsán webový korpus W2C. Tento korpus obsahuje 97 jazyku a pro každý z nich alespoň 10 milionů slov. Celková velikost je 10,5 miliardy slov. Aby bylo možné takovýto korpus vytvořit, bylo nutné vyřešit ce- lou řadu dílčích problémů. Na začátku musel být sestaven korpus z Wikipedie se 122 jazyky, na kterém byl natrénován rozpoznávač jazyků. Pro stahování webových stránek byl implementován distribuovaný systém, který využíval 35 počítačů. Ze stažených dat byly odstraněny duplicity. Vytvořené korpusy byly vzájemně porovnány pomocí různých statistik, jako jsou průměrná délky slov a vět, podmíněná entropie a podmíněná perplexita. 1
This thesis introduces the W2C Corpus which contains 97 languages with more than 10 million words for each of these languages, with the total size 10.5 billion words. The corpus was built by crawling the Internet. This work describes the methods and tools used for its construction. The complete process consisted of building an initial corpus from Wikipedia, developing a language recognizer for 122 languages, implementing a distributed system for crawling and parsing webpages and finally, the reduction of duplicities. A comparative analysis of the texts of Wikipedia and the Internet is provided at the end of this thesis. The analysis is based on basic statistics such as average word and sentence length, conditional entropy and perplexity. 1