Adaptabilní heuristika pro vyhodnocování podobnosti zdrojových textů
Adaptable heuristic for source code similarity measuring.
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/30601Identifikátory
SIS: 49853
Katalog UK: 990011968040106986
Kolekce
- Kvalifikační práce [11978]
Autor
Vedoucí práce
Oponent práce
Kopecký, Michal
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Softwarové systémy
Katedra / ústav / klinika
Katedra softwaru a výuky informatiky
Datum obhajoby
2. 2. 2010
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Čeština
Známka
Výborně
Princip fungování většiny existujících systémů pro vyhledávání plagiátů v zadané množině zdrojových textů spočívá v postupném porovnávání každého textu s ostatními texty v množině. Ve většině případů vyjde spočítaná míra podobnosti natolik malá, že se dále není třeba danou dvojicí souborů zabývat (můžeme s jistotou na základě dosažené míry podobnosti prohlásit, že se nejedná o plagiáty). Cílem této práce je navrhnout algoritmus pro předvýběr dvojic souborů určených k porovnání. Heuristický algoritmus by měl efektivně odhadovat výsledky složitějšího porovnávacího programu a na základě tohoto odhadu rozhodovat, zda připustit dvojici zdrojových textů k porovnání. Algoritmus by měl být adaptabilní v tom smyslu, že by měnil svoje odhady v závislosti na spektru zdrojových textů obsažených v systému.
Most of systems for plagiarism detection within a set of source codes is based on sequential comparing of each source code with all other source codes in the set. Computed similarity is in most cases so low, that we can deduce compared codes are not plagiarized. Purpose of this work is to create a heuristic algorithm for pre-selection of source code pairs for comparing. Heuristic algortihm should effectively aproximate results of the main comparing program, which is more complicated and slower. The plagiarism detection system will then decide, based on the result of heuristic algorithm, whether the source code pair will be compared using main comparing program or not. Algorithm should be self-adapting - it should be able to improve itself depending on the set of source codes saved in system.
