Sledování aktivovanosti objektů v textech
Sledování aktivovanosti objektů v textech
diplomová práce (OBHÁJENO)

Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/81181Identifikátory
SIS: 167343
Katalog UK: 990020260980106986
Kolekce
- Kvalifikační práce [11335]
Autor
Vedoucí práce
Oponent práce
Žabokrtský, Zdeněk
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Matematická lingvistika
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
9. 9. 2015
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Dobře
Klíčová slova (česky)
aktivovanost, salience, koreference, TFA, strojové učeníKlíčová slova (anglicky)
salience, coreference, TFA, machine learningV kontextu analýzy diskurzu stupeň aktivovanosti (salience) modeluje aktuální míru zapojenosti odkazovaných objektů a její vývoj v průběhu textu. Algoritmus pro určování aktivovanosti a vizualizaci jejího průběhu již byl navržen a otestován na malém vzorku dat. Tato práce reprodukuje výsledky algoritmu ve větším měřítku pomocí dat z Pražského závislostního korpusu 3.0. Výsledky jsou pak zpracovány do přístupného tvaru a je provedena jejich analýza jak pomocí vizuálního výstupu, tak i výstupů kvantitativních. Přitom jsou zohledněny dva základní stavební kameny aktivovanosti; koreferenční vztahy a informační struktura věty. Práce se také zabývá možností modelování aktivovanosti pomocí strojového učení za použití algoritmů rozhodovacích stromů a náhodného lesa. V závěrečné části je proveden experiment zkoumající možné využití informace o aktivovanosti v některé z úloh strojového učení při zpracování přirozeného jazyka na příkladě shlukování dokumentů. Powered by TCPDF (www.tcpdf.org)
The notion of salience in the discourse analysis models how the activation of referred objects evolves in the flow of text. The salience algorithm was already defined and tested briefly in an earlier research, we present a reproduction of its results in a larger scale using data from the Prague Dependency Treebank 3.0. The results are then collected into an accessible shape and analyzed both in their visual and quantitative form in the context of the two main resources of the salience - coreference relations and topic-focus articulation. Furthermore, a possibility of modeling the salience degree by a machine learning algorithm (decision trees and random forest) is examined. Finally, attempts are made with using the salience information in the machine learning NLP task of document clustering visualization. Powered by TCPDF (www.tcpdf.org)