Detekce duplicit v rozsáhlých webových bázích dat

Sadloň, Vladimír

Detection of Duplicates in Huge Web Databases
Detekce duplicit v rozsáhlých webových bázích dat

diplomová práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (80.18Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/49560

Identifikátory

SIS: 48058

Katalog UK: 990014283720106986

Oponent práce

Kopecký, Michal

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Softwarové systémy

Katedra / ústav / klinika

Katedra softwarového inženýrství

Datum obhajoby

30. 1. 2012

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Slovenština

Známka

Výborně

Klíčová slova (česky)

plagiátorství, detekce duplicitních dokumentů, online vyhledávání

Klíčová slova (anglicky)

plagiarism, duplicity document detection, online search

Tato diplomová práce se zabývá metodami používanými k detekci duplicitních dokumentů, a možností jejich integrace do internetového vyhledávače. Nabízí přehled běžně používaných metod, z nichž vybírá metodu aproximace Jaccardovy míry podobnosti v kombinaci se šindelováním. Vybranou metodu přizpůsobuje k implementaci v prostředí internetového vyhledávače Egothor. Cílem práce je představit tuto implementaci, popsat její vlastnosti a nalézt nejvhodnější parametry tak, aby detekce probíhala pokud možno v reálném čase. Důležitou vlastností metody je také možnost vykonávat dynamické změny nad kolekcí indexovaných dokumentů.

Abstrakt (anglicky)

This master thesis analyses the methods used for duplicity document detection and possibilities of their integration with a web search engine. It offers an overview of commonly used methods, from which it chooses the method of approximation of the Jaccard similarity measure in combination with shingling. The chosen method is adapted for implementation in the Egothor web search engine environment. The aim of the thesis is to present this implementation, describe its features, and find the most suitable parameters for the detection to run in real time. An important feature of the described method is also the possibility to make dynamic changes over the collection of indexed documents.

Citace dokumentu

Metadata

Zobrazit celý záznam