Optimization and Refinement of XML Schema Inference Approaches
Optimization and Refinement of XML Schema Inference Approaches
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/49479Identifikátory
SIS: 95510
Kolekce
- Kvalifikační práce [11211]
Autor
Vedoucí práce
Oponent práce
Stárka, Jakub
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Softwarové systémy
Katedra / ústav / klinika
Katedra softwarového inženýrství
Datum obhajoby
5. 9. 2011
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
XML, XML schéma, odvozování schématu, odvozování regulárních výrazů z pozitivních příkladůKlíčová slova (anglicky)
XML, XML schema, schema inference, inference of regular expressions from positive examplesI když je XML obecně už ivána technologie, větš ina XML dokumentů v oběhu neodpovídá ž ádnému specifikovanému schématu. Za této situace vznikl výzkum automatické konstrukce schémat z XML dokumentů. Tato práce zdokonaluje a rozš iřuje stávající přístupy automatické konstrukce schémat předevš ím využ itím starého schématu v procesu konstrukce, návrhnem nových MDL metrik a heuristickým vyloučením excentrických datových vstupů. Práce přináš í jednoduš e rozš ířitelnou a k použ ití připravenou implementaci ve formě pluginu do aplikace jInfer (vyvinuté v rámci softwarového projektu). Součástí práce jsou experimentální výsledky.
Although XML is a widely used technology, the majority of real-world XML documents does not conform to any particular schema. To fill the gap, the research area of automatic schema inference from XML documents has emerged. This work refines and extends recent approaches to the automatic schema inference mainly by exploiting an obsolete schema in the inference process, designing new MDL measures and heuristic excluding of excentric data inputs. The work delivers a ready-to-use and easy-to-extend implementation integrated into the jInfer framework (developed as a software project). Experimental results are a part of the work.