Sumarizace českých textů z více zdrojů
Multi-source Text Summarization for Czech
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/49587Identifikátory
SIS: 62751
Katalog UK: 990014283810106986
Kolekce
- Kvalifikační práce [11982]
Autor
Vedoucí práce
Oponent práce
Mareček, David
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Teoretická informatika
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
30. 1. 2012
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Čeština
Známka
Velmi dobře
Klíčová slova (česky)
sumarizace, novinové články, TF*IDF, BLEU, ROUGE, kosinový koe cient, Jaccard, Dice, overlap, Prague Dependency Treebank, TreexKlíčová slova (anglicky)
summarization, news articles, TF*IDF, BLEU, ROUGE, cosine coefficient, Jaccard, Dice, overlap, Prague Dependency Treebank, TreexDiplomová práce se zabývá problémem sumarizace sady článků na dané téma. Rozebírá několik možných způsobů sestavování sumarizace a způsoby vyhodnocení jejich výsledků. Součástí práce je implementace popsaných algoritmů a jejich aplikace na vybrané texty. Ty pocházejí z~českých zpravodajských webových serverů a jsou reprezentovány formálně pomocí hloubkové syntaxe (tektogramatická rovina).
This work focuses on the summarization task for a set of articles on the same topic. It discusses several possible ways of summarizations and ways to assess their final quality. The implementation of the described algorithms and their application to selected texts constitutes a part of this work. The input texts come from several Czech news servers and they are represented as deep syntactic trees (the so called tectogrammatical layer).
