Predicting readability of Czech legal writing using linguistic features
Predikce srozumitelnosti českého právního textu pomocí lingvistických rysů
bachelor thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/201739Identifiers
Study Information System: 273523
Collections
- Kvalifikační práce [24991]
Author
Advisor
Referee
Šimík, Radek
Faculty / Institute
Faculty of Arts
Discipline
Czech Language and Literature
Department
Institute of Czech Language and Theory of Communication
Date of defense
9. 6. 2025
Publisher
Univerzita Karlova, Filozofická fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
srozumitelnost|právní text|čeština|stylometrie|gramatikaKeywords (English)
readability|legal writing|Czech|stylometry|grammarV anglofonním světě se již více než půl století prosazuje hnutí za přístupnější jazyk v právní a administrativní komunikaci, které se již podrobně zkoumalo. Systematické pokusy o re- formu českého právního jazyka jsou podstatně novější, a proto jim zatím byla věnována jen malá lingvistická pozornost. Tato bakalářská práce problematiku pojímá kvantitativním způ- sobem, jakkoli tento není vyčerpávající. Z dostupných korpusů českých administrativních a právních textů sestavím soubor 753 dokumentů s metadaty o jejich srozumitelnosti. Na tex- tech měřím 61 proměnných vč. lingvistických rysů diskutovaných v příručkách srozumitel- ného právního psaní, většinou gramatických nebo lexikálních, tradičních metrik srozumitel- nosti nebo několika stylometrických indikátorů. Pro každou proměnnou analyzuji její vliv na srozumitelnost. Abych získal obecnější představu o trendech, které se v datech projevují, provádím následně na proměnných, které měly na srozumitelnost signifikantní vliv, explora- torní faktorovou analýzu a vliv na srozumitelnost měřím i u faktorů. Nakonec trénuji klasi- fikátor předpovídající srozumitelnost. Nejsilnějšími prediktory se zdají být aktivita a další proměnné související s dichotomií technický-hovorový rejstřík. Užívání opisného pasiva má také silný vliv a jeví se korelovat s...
In the English-speaking world, the plain language movement has been advocating for more accessible language in legal and administrative communication for over half a century, and it has been extensively studied. Systematic attempts to reform 'Czech legalese' are consider- ably more recent and thus have so far been devoted little linguistic attention. This BA thesis presents a quantitative take on the matter, albeit not exhaustive. I compile a set of 753 doc- uments from available corpora of Czech administrative and legal texts, with metadata con- cerning their readability. I measure 61 variables on the texts. They include linguistic features discussed in plain legal writing handbooks, mostly grammatical or lexical, common readabil- ity formulas, and a handful of stylometric indicators. I analyze the variables for their effect on readability. To get a more general picture of the trends in my data, I then perform exploratory factor analysis on those the effect of which has been found significant, and I measure the ef- fect of the factors on readability as well. Finally, I train a classifier predicting readability. Ac- tivity and other variables related to the technical-spoken register dichotomy seem to be the strongest predictors of readability. Using be-passives also has a strong effect and appears...
