Extrakce dat z HTML
HTML data extraction
bachelor thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/18531Identifiers
Study Information System: 48660
Collections
- Kvalifikační práce [10135]
Author
Advisor
Referee
Eckhardt, Alan
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Programming
Department
Department of Software Engineering
Date of defense
8. 9. 2008
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Czech
Grade
Excellent
Cílem této práce je návrh a implementace aplikace, která umožní efektivně extrahovat data z HTML stránek. Pří návrhu je kladen důraz na maximální využití existujících XML technologií. Výsledná aplikace je založena na jazyce XQuery, který dále rozšiřuje o možnost práce s webovými stránkami a kombinuje s dalšími technologiemi pro dohledávání relevantních částí ve volném textu. Zároveň umožňuje použití jazyka XSLT pro transformaci dat do požadované podoby. Aplikace obsahuje příkazové, grafi cké a serverové rozhraní, které je doplněno uživatelským rozšířením webového prohlížeče Mozilla Firefox 3. Příkazové rozhraní umožňuje dávkové zpracování dotazů, zatímco grafi cké rozhraní nabízí uživatelsky přívětivý způsob tvorby dotazů. Serverové rozhraní pak přináší možnost využití aplikace jako součást jiných aplikací a řešení.
Goals of this work are design and implementation of an application which will allow efective data extraction from HTML pages. Emphasis is put on maximal utilization of existing XML technologies. Resulting application is based on XQuery language, which is extended by options allowing to work with web pages and combines it with other technologies for searching for relevant parts in free text. At the same time, it allows the usage of XSLT language for transformation of data into the required form. Application contains command-line, graphical and server interface, which is accompanied by user extension for Mozilla Firefox 3 web browser. Command-line interface allows the batch processing of queries whereas the graphical interface o ers user friendly way of creating queries. Server interface then brings the possibility of using application as a part of other applications and solutions.