Webový vyhledávací systém
Web Search Engine
Webový vyhledávací systém
diploma thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/53757Identifiers
Study Information System: 94584
Collections
- Kvalifikační práce [11322]
Author
Advisor
Referee
Skopal, Tomáš
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Software Systems
Department
Department of Distributed and Dependable Systems
Date of defense
27. 1. 2014
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Slovak
Grade
Very good
Keywords (Czech)
galaxy, vyhľadávač, index, wayback, distribuované spracovanie, dataset, worker, procesor, j5m, crawler, egothor, konektor, webové službyKeywords (English)
galaxy, search engine, index, wayback, distributed processing, dataset, worker, procesor, j5m, crawler, egothor, connector, web servicesAkademický fulltextový vyhľadávač Egothor sa v posledných rokoch stal základom viacerých prác z oblasti vyhľadávania. Doposiaľ však neexistovalo riešenie, ktoré by poskytlo kompletnú sadu nástrojov pre spracovanie webového obsahu vo väčšom merítku. Táto práca sa zaoberá návrhom a implementáciou distribuovaného vyhľadávacieho systému zameraného predovšetkým na internetové zdroje. Analyzuje komponenty prvej generácie systému pre spracovanie webového obsahu a predstavuje ich primárne funkcie. Následne popisuje ich využitie pri návrhu architektúry distribuovanej varianty webového vyhľadávača. Návrh sa zameriava predovšetkým na fázy získavania, spracovania a indexácie dát. Následne popisuje spôsob implementácie uvedeného riešenia. V závere potom predstavuje niekoľko návrhov ako na dosiahnuté výsledky nadviazať.
Academic fulltext search engine Egothor has recently became starting point of several thesis aimed on searching. Until now, there was no solution available to provide robust set of web content processing tools. This master thesis is aiming on design and implementation of distributed search system working primary with internet sources. We analyze first generation components for processing of web content and summarize their primary features. We use those features to propose architecture of distributed web search engine. We aim mainly to phases of data fetching, processing and indexing. We also describe final implementation of such system and propose few ideas for future extensions.