Webový vyhledávací systém
Web Search Engine
Webový vyhledávací systém
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/53757Identifikátory
SIS: 94584
Kolekce
- Kvalifikační práce [10932]
Autor
Vedoucí práce
Oponent práce
Skopal, Tomáš
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Softwarové systémy
Katedra / ústav / klinika
Katedra distribuovaných a spolehlivých systémů
Datum obhajoby
27. 1. 2014
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Slovenština
Známka
Velmi dobře
Klíčová slova (česky)
galaxy, vyhľadávač, index, wayback, distribuované spracovanie, dataset, worker, procesor, j5m, crawler, egothor, konektor, webové službyKlíčová slova (anglicky)
galaxy, search engine, index, wayback, distributed processing, dataset, worker, procesor, j5m, crawler, egothor, connector, web servicesAkademický fulltextový vyhľadávač Egothor sa v posledných rokoch stal základom viacerých prác z oblasti vyhľadávania. Doposiaľ však neexistovalo riešenie, ktoré by poskytlo kompletnú sadu nástrojov pre spracovanie webového obsahu vo väčšom merítku. Táto práca sa zaoberá návrhom a implementáciou distribuovaného vyhľadávacieho systému zameraného predovšetkým na internetové zdroje. Analyzuje komponenty prvej generácie systému pre spracovanie webového obsahu a predstavuje ich primárne funkcie. Následne popisuje ich využitie pri návrhu architektúry distribuovanej varianty webového vyhľadávača. Návrh sa zameriava predovšetkým na fázy získavania, spracovania a indexácie dát. Následne popisuje spôsob implementácie uvedeného riešenia. V závere potom predstavuje niekoľko návrhov ako na dosiahnuté výsledky nadviazať.
Academic fulltext search engine Egothor has recently became starting point of several thesis aimed on searching. Until now, there was no solution available to provide robust set of web content processing tools. This master thesis is aiming on design and implementation of distributed search system working primary with internet sources. We analyze first generation components for processing of web content and summarize their primary features. We use those features to propose architecture of distributed web search engine. We aim mainly to phases of data fetching, processing and indexing. We also describe final implementation of such system and propose few ideas for future extensions.