Graph algorithms in text retrieval
Grafové algoritmy ve vyhledávání textových dokumentů
diploma thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/9322Identifiers
Study Information System: 46208
Collections
- Kvalifikační práce [11242]
Author
Advisor
Referee
Galamboš, Leo
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Software systems
Department
Department of Software Engineering
Date of defense
21. 5. 2007
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Tato diplomová práce zkoumá možnosti využití grafových algoritm ů v oblasti information retrieval (vyhledávání informací). Na zač átku je poskytnut p řehled základních pojm ů z oblasti dokumentografických informa čních systém ů a základě teorie graf . Zbytek práce se pak zabývá prů nikem tě chto dvou oblastí. Mezi př íklady z tohoto prů niku patř í např íklad klastrování a kategorizace dokumentů , i hledání komunit. Nejvíc pozornosti je však soust ředě no na algoritmy hodnotící d ůležitost dokument ů s pomocí využití graf ů. Tyto algoritmy vylepšují nejd ůležitě jší vlastnost informa čních systémů , jejich p řesnost. Práce poskytuje přehled rů zných hodnotících algoritmů založených na grafech a uvádí komentář e k jejich praktič nosti, č asovým a paměť ovým nároků m. V práci je taky detailně popsaná implementace algoritmů na poč ítaní PageRanku stránek navržená pro využití ve vyhledáva či Egothor. Popis také obsahuje výsledky m ěření č asové a pam ěťové nároč nosti a uvádí návrhy na další zlepšení.
This thesis surveys use of graph theory and algorithms in information retrieval. It provides an introduction to graph and information retrieval theories and an overview of the overlap between these disciplines. We show application of the graph theory in clustering, document classification, finding communities etc. The most stress is, however, put on ranking algorithms as they aim to improve the most critical property of the information retrieval systems, their precision. The paper presents different graphbased ranking algorithms, provides comments to their time and memory requirements and to realistic usage of these rankings. It also contains a description and test results of our implementation of algorithms for computing the PageRank distribution designed for the Egothor search engine.