Sumarizace českých textů z více zdrojů
Multi-source Text Summarization for Czech
diploma thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/49587Identifiers
Study Information System: 62751
CU Caralogue: 990014283810106986
Collections
- Kvalifikační práce [11338]
Author
Advisor
Referee
Mareček, David
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Theoretical Computer Science
Department
Institute of Formal and Applied Linguistics
Date of defense
30. 1. 2012
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Czech
Grade
Very good
Keywords (Czech)
sumarizace, novinové články, TF*IDF, BLEU, ROUGE, kosinový koe cient, Jaccard, Dice, overlap, Prague Dependency Treebank, TreexKeywords (English)
summarization, news articles, TF*IDF, BLEU, ROUGE, cosine coefficient, Jaccard, Dice, overlap, Prague Dependency Treebank, TreexDiplomová práce se zabývá problémem sumarizace sady článků na dané téma. Rozebírá několik možných způsobů sestavování sumarizace a způsoby vyhodnocení jejich výsledků. Součástí práce je implementace popsaných algoritmů a jejich aplikace na vybrané texty. Ty pocházejí z~českých zpravodajských webových serverů a jsou reprezentovány formálně pomocí hloubkové syntaxe (tektogramatická rovina).
This work focuses on the summarization task for a set of articles on the same topic. It discusses several possible ways of summarizations and ways to assess their final quality. The implementation of the described algorithms and their application to selected texts constitutes a part of this work. The input texts come from several Czech news servers and they are represented as deep syntactic trees (the so called tectogrammatical layer).