Vyhľadávanie relevantných článkov v rozsiahlych kolekciách
Searching relevant articles in extensive collections
Vyhľadávanie relevantných článkov v rozsiahlych kolekciách
bachelor thesis (DEFENDED)
Reason for restricted acccess:
The annexes of the thesis or its part are inaccessible in accordance with article 18a (7) of The Code of Study and Examination in conjunction with Article 9 of the Rector’s Directive No. 6/2010.
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/44019Identifiers
Study Information System: 96510
Collections
- Kvalifikační práce [11216]
Author
Advisor
Referee
Bartoš, Tomáš
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Administration of Computer Systems
Department
Department of Software Engineering
Date of defense
6. 9. 2012
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Slovak
Grade
Very good
Keywords (Czech)
vyhľadávanie informácií, tf-idf, morfológia, stemmingKeywords (English)
information retrieval, tf-idf, morphology, stemmingVyhledávání textu v článcích se standartně řeší fulltextovým vyhledáváním. Při použití pokročilejších metod je možné dosáhnout výrazně lepších výsledků. Předmětem této práce je vytvořit univerzální knihovnu na prohledávání rozsáhlých kolekcí, která je přizpůsobena pro český jazyk. Využívá nástroje schopné pracovat s morfologií a zohledňovat důležitost slov. Součástí je experiment se slovnými spojeními, které do vyhledávání zapojují kontext. Míra uspěšnosti experimentu je ověřena na rozsáhlé kolekci dat. Vytvořená knihovna je tak unikátním nástrojem na zpracování rozsáhlých kolekcí českého textu, přičemž je připravena na rozšíření o další jazyky a metody.
Searching text in articles is usually implemented with fulltext search. Using more advanced techniques however, it is possible to achieve significantly better results. The subject of this work is to create a universal library for searching extensible collections, specialized in czech language. The library makes use of tools capable of working with morphology while considering importance of words. It also conducts an experiment with word pairs, which adds context into the search process. The success rate of this experiment is tried on an extensible collection of data. Created library is a unique tool for processing extensible collections of czech text, while at the same time it is ready for further extension by new languages and methods.