Vizualizace podobnosti dokumentů
Document similarity visualization
bachelor thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/13036Identifiers
Study Information System: 45232
Collections
- Kvalifikační práce [11322]
Author
Advisor
Referee
Schlesinger, Pavel
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Programming
Department
Institute of Formal and Applied Linguistics
Date of defense
11. 9. 2007
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Czech
Grade
Excellent
V této práci se zabýváme vizuálním porovnáváním textů, především hledáním podobností v textových dokumentech pomocí techniky dotplotu. Pro tento způsob porovnávání byl implementován algoritmus a vytvořena uživatelská aplikace, se kterou je možno pracovat interaktivně. Pro zpracování více textů najednou byla vytvořena i command-line verze. Ovládání obou verzí je popsáno v uživatelské příručce v Příloze A. Dále se v práci zabýváme tím, jaké vzorky vznikají v dotplotu a co vypovídají o původním textu. Je možné hledat podobnosti v rámci jednoho souboru stejně dobře jako porovnávat dva různé soubory.
In the present work we study visual comparision of texts, especially by nding similarity in text documents by dotplot technique. An algorithm for this type of comparison was implemented and graphic user interface was made to allow user to work interactively. Also, command-line version of the application was created to allow batch processing of multiple documents. Instructions to use these programs are written in user documentation whichis added to this work in Appendix A. Further we study which patterns could grow up in dotplot and what these patterns predicate about documents. It is possible to nd self-similarity in one documents or similarity in two di fferent documents.