Predicting readability of Czech legal writing using linguistic features
Predikce srozumitelnosti českého právního textu pomocí lingvistických rysů
bakalářská práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/201739Identifikátory
SIS: 273523
Kolekce
- Kvalifikační práce [25018]
Autor
Vedoucí práce
Oponent práce
Šimík, Radek
Fakulta / součást
Filozofická fakulta
Obor
Český jazyk a literatura
Katedra / ústav / klinika
Ústav českého jazyka a teorie komunikace
Datum obhajoby
9. 6. 2025
Nakladatel
Univerzita Karlova, Filozofická fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
srozumitelnost|právní text|čeština|stylometrie|gramatikaKlíčová slova (anglicky)
readability|legal writing|Czech|stylometry|grammarV anglofonním světě se již více než půl století prosazuje hnutí za přístupnější jazyk v právní a administrativní komunikaci, které se již podrobně zkoumalo. Systematické pokusy o re- formu českého právního jazyka jsou podstatně novější, a proto jim zatím byla věnována jen malá lingvistická pozornost. Tato bakalářská práce problematiku pojímá kvantitativním způ- sobem, jakkoli tento není vyčerpávající. Z dostupných korpusů českých administrativních a právních textů sestavím soubor 753 dokumentů s metadaty o jejich srozumitelnosti. Na tex- tech měřím 61 proměnných vč. lingvistických rysů diskutovaných v příručkách srozumitel- ného právního psaní, většinou gramatických nebo lexikálních, tradičních metrik srozumitel- nosti nebo několika stylometrických indikátorů. Pro každou proměnnou analyzuji její vliv na srozumitelnost. Abych získal obecnější představu o trendech, které se v datech projevují, provádím následně na proměnných, které měly na srozumitelnost signifikantní vliv, explora- torní faktorovou analýzu a vliv na srozumitelnost měřím i u faktorů. Nakonec trénuji klasi- fikátor předpovídající srozumitelnost. Nejsilnějšími prediktory se zdají být aktivita a další proměnné související s dichotomií technický-hovorový rejstřík. Užívání opisného pasiva má také silný vliv a jeví se korelovat s...
In the English-speaking world, the plain language movement has been advocating for more accessible language in legal and administrative communication for over half a century, and it has been extensively studied. Systematic attempts to reform 'Czech legalese' are consider- ably more recent and thus have so far been devoted little linguistic attention. This BA thesis presents a quantitative take on the matter, albeit not exhaustive. I compile a set of 753 doc- uments from available corpora of Czech administrative and legal texts, with metadata con- cerning their readability. I measure 61 variables on the texts. They include linguistic features discussed in plain legal writing handbooks, mostly grammatical or lexical, common readabil- ity formulas, and a handful of stylometric indicators. I analyze the variables for their effect on readability. To get a more general picture of the trends in my data, I then perform exploratory factor analysis on those the effect of which has been found significant, and I measure the ef- fect of the factors on readability as well. Finally, I train a classifier predicting readability. Ac- tivity and other variables related to the technical-spoken register dichotomy seem to be the strongest predictors of readability. Using be-passives also has a strong effect and appears...
