Analysis of Real-World XML Queries
Analýza reálných XML dotazů
diploma thesis (NOT DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/72151Identifiers
Study Information System: 138108
Collections
- Kvalifikační práce [11322]
Author
Advisor
Referee
Klímek, Jakub
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Software Systems
Department
Department of Software Engineering
Date of defense
8. 9. 2014
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Fail
Keywords (Czech)
analýza, reální XQuery, XQConverter, crawlerKeywords (English)
analysis, real-world XQuery, XQConverter, crawlerÚčelem této práce bylo shromáždit a analyzovat běžně používané XQuery programy. Ke sběru dat z internetu je nejčastěji využíván program zvaný crawler. Součástí této práce byla analýza různých crawlerů a výběr nejvhodnějšího z nich. Tento crawler byl následně upraven tak, aby nevytěžoval servery, sbíral správná data a bylo možné jeho činnost pozastavit. Před započetím sběru dat ještě zbývalo určit, kde bude vhodné začít a jak dlouho by celý proces měl trvat. Po skončení hlavní části pak ještě zbývalo data vyčistit a ověřit jejich validitu. Předmětem následných analýz bylo použití dotazovacího jazyka XQuery a výskyt jeho gramatických symbolů. K provedení těchto analýz byla použita kombinace XPath dotazovacích výrazů a XML reprezentace XQuery programů. Pro vytvoření zmíněných reprezentací byl použit nástroj XQConveror. Hlavní přínosem této práce jsou vlastní sběr dat a také první analýza běžně používaných XQuery programů.
The aim of this master thesis was to gather and analyze the real-world XQuery programs. The data gathering process is performed using the crawler. The thesis contains analysis of different crawlers and the most suitable crawler was chosen. The crawler was modified, so that it did not overload servers, gathered the right data and was able to pause. Before the data gathering we analyzed where to start gathering and how long should it took. When the data was gathered, they needed to be cleaned and validated. The subjects of the analyses were use of the XQuery language and occurrences of XQuery grammar symbols. Combination of the XML representation of XQuery programs and XPath expressions for querying this representation was used to perform these analyses. XQConveror was used to create this XML representation. The main contributions of this thesis are the gathered data and the first real-world XQuery programs analysis.