Adaptabilní heuristika pro vyhodnocování podobnosti zdrojových textů

Vodsloň, František

Adaptable heuristic for source code similarity measuring.

diplomová práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (137.0Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/30601

Identifikátory

SIS: 49853

Katalog UK: 990011968040106986

Oponent práce

Kopecký, Michal

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Softwarové systémy

Katedra / ústav / klinika

Katedra softwaru a výuky informatiky

Datum obhajoby

2. 2. 2010

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Čeština

Známka

Výborně

Princip fungování většiny existujících systémů pro vyhledávání plagiátů v zadané množině zdrojových textů spočívá v postupném porovnávání každého textu s ostatními texty v množině. Ve většině případů vyjde spočítaná míra podobnosti natolik malá, že se dále není třeba danou dvojicí souborů zabývat (můžeme s jistotou na základě dosažené míry podobnosti prohlásit, že se nejedná o plagiáty). Cílem této práce je navrhnout algoritmus pro předvýběr dvojic souborů určených k porovnání. Heuristický algoritmus by měl efektivně odhadovat výsledky složitějšího porovnávacího programu a na základě tohoto odhadu rozhodovat, zda připustit dvojici zdrojových textů k porovnání. Algoritmus by měl být adaptabilní v tom smyslu, že by měnil svoje odhady v závislosti na spektru zdrojových textů obsažených v systému.

Abstrakt (anglicky)

Most of systems for plagiarism detection within a set of source codes is based on sequential comparing of each source code with all other source codes in the set. Computed similarity is in most cases so low, that we can deduce compared codes are not plagiarized. Purpose of this work is to create a heuristic algorithm for pre-selection of source code pairs for comparing. Heuristic algortihm should effectively aproximate results of the main comparing program, which is more complicated and slower. The plagiarism detection system will then decide, based on the result of heuristic algorithm, whether the source code pair will be compared using main comparing program or not. Algorithm should be self-adapting - it should be able to improve itself depending on the set of source codes saved in system.

Citace dokumentu

Metadata

Zobrazit celý záznam