Diachronní srovnání synchronních korpusů
Diachronic comparison of synchronic corpora
dissertation thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/43653Identifiers
Study Information System: 120960
Collections
- Kvalifikační práce [23802]
Author
Advisor
Referee
Kučera, Karel
Králík, Jan
Faculty / Institute
Faculty of Arts
Discipline
Mathematical Linguistics
Department
Institute of the Czech National Corpus
Date of defense
29. 5. 2012
Publisher
Univerzita Karlova, Filozofická fakultaLanguage
Czech
Grade
Pass
Keywords (Czech)
synchronní korpusy, diachronní srovnání, lexikální frekvence, jazykový vývoj, jazyková variabilita, složení korpusu, reprezentativnostKeywords (English)
synchronic corpora, diachronic comparison, lexical frequencies, language change, language variability, corpus composition, representativenessPráce představuje metodu pro diachronní srovnání synchronních korpusů zachycu- jících blízké stavy jazyka. Cílem práce je především zhodnotit možnosti a meze de- tekce vývojových tendencí v jazyce na materiálu synchronních psaných korpusů řady SYN. Metodologicky jde o corpus-driven přístup založený na statistickém vyhodno- cení rozdílů mezi normalizovanými průměrnými redukovanými frekvencemi lemmat a lexikálních kombinací. Metoda je aplikována v několika variantách na různě definované subkorpusy korpusu SYN a podrobně vyhodnocena. Provedené srovnání ztěžuje především vliv složení jednotlivých korpusů a provázanost změn v jazyce se změnami společenskými. Protože neumíme spolehlivě odlišit zárodky diachronních posunů od přirozeně existující synchronní variability, je statisticky zjištěná významnost frekvenčních rozdílů jednotlivých výrazů zpětně ověřována na korpusech a interpretace výsledků korigována znalostí jejich přesného složení. Závěry jsou založeny především na publicistice, která je z psaného jazyka nejvíce otevřená změnám. Změny v jazyce publicistiky lze charakterizovat jako tematický od- klon od původní politické a ekonomické orientace směrem k tématům týkajícím se praktického života a využívání volného času spojený se zvyšující se neformálností, která způsobuje posuny ve frekvencích...
The thesis presents a method for diachronic comparison of synchronic corpora that reflect language of very close time periods. Its primary aim is the assessment of possi- bilities and limitations of language change detection based on the synchronic written SYN-series corpora. The approach is corpus-driven, based on a statistical evaluation of differences among normalized average reduced frequencies of lemmata and lexical combinations. There are several variants of the method applied on various subcorpora of corpus SYN and their results examined in detail. Difficulty of the comparison lies in the influence of corpus composition and the interconnection of changes in language with changes in society. As it is not easy to distinguish the signs of diachronic shift from naturally existing synchronic variability, the statistically discovered significance of frequency differences is additionally verified by querying the base corpora. The interpretation of the results is also adjusted by the knowledge of their exact composition. The conclusions are based mainly on the newspapers as a written text type that is most receptive to the changes. The changes can be characterized as a thematic diversion from the original political and economical orientation of the newspapers towards real- life and free-time topics...