Webový vyhledávací systém

Tamáš, Miroslav

Web Search Engine
Webový vyhledávací systém

diplomová práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (144.3Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/53757

Identifikátory

SIS: 94584

Katalog UK: 990016786850106986

Oponent práce

Skopal, Tomáš

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Softwarové systémy

Katedra / ústav / klinika

Katedra distribuovaných a spolehlivých systémů

Datum obhajoby

27. 1. 2014

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Slovenština

Známka

Velmi dobře

Klíčová slova (česky)

galaxy, vyhľadávač, index, wayback, distribuované spracovanie, dataset, worker, procesor, j5m, crawler, egothor, konektor, webové služby

Klíčová slova (anglicky)

galaxy, search engine, index, wayback, distributed processing, dataset, worker, procesor, j5m, crawler, egothor, connector, web services

Akademický fulltextový vyhľadávač Egothor sa v posledných rokoch stal základom viacerých prác z oblasti vyhľadávania. Doposiaľ však neexistovalo riešenie, ktoré by poskytlo kompletnú sadu nástrojov pre spracovanie webového obsahu vo väčšom merítku. Táto práca sa zaoberá návrhom a implementáciou distribuovaného vyhľadávacieho systému zameraného predovšetkým na internetové zdroje. Analyzuje komponenty prvej generácie systému pre spracovanie webového obsahu a predstavuje ich primárne funkcie. Následne popisuje ich využitie pri návrhu architektúry distribuovanej varianty webového vyhľadávača. Návrh sa zameriava predovšetkým na fázy získavania, spracovania a indexácie dát. Následne popisuje spôsob implementácie uvedeného riešenia. V závere potom predstavuje niekoľko návrhov ako na dosiahnuté výsledky nadviazať.

Abstrakt (anglicky)

Academic fulltext search engine Egothor has recently became starting point of several thesis aimed on searching. Until now, there was no solution available to provide robust set of web content processing tools. This master thesis is aiming on design and implementation of distributed search system working primary with internet sources. We analyze first generation components for processing of web content and summarize their primary features. We use those features to propose architecture of distributed web search engine. We aim mainly to phases of data fetching, processing and indexing. We also describe final implementation of such system and propose few ideas for future extensions.

Citace dokumentu

Metadata

Zobrazit celý záznam