Automatizovaná extracia informácií z internetu
Automated web information extraction
Automatizovaná extracia informácií z internetu
diploma thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/31453Identifiers
Study Information System: 82481
Collections
- Kvalifikační práce [11322]
Author
Advisor
Referee
Dokulil, Jiří
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Software Systems
Department
Department of Software and Computer Science Education
Date of defense
30. 5. 2011
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Slovak
Grade
Good
Keywords (Czech)
extrakce dat z Webu, programování demonstracíKeywords (English)
Web Scraping, Programming by Demonstration1 Webové stránky zpřístupňují ohromné množství informací. Často se jedná o stránky generované z dat uložených v databázích. Přitom je kladen důraz na zobrazení informací, ale ne na jejich strojové zpracování. V diplomové práci je navrhnut a implementován prototyp systému na získávání dat z dynamicky generovaných webových stránek technikou programování demonstrací (programming by demonstration). Tento systém umožní uživateli myší ukázat, jak má systém postupovat při sběru informací z dané webové stránky. Na základe této ukázky by systém měl odvodit postup, jak získávat informace na podobných stránkách. Implementovaný systém dokáže posbírat pro uživatele relevantní informace z podobných stránek například do tvaru jednoduché tabulky vhodné na další strojové zpracování.
1 Web sites offer a huge amount of information. Often it is a page generated from data stored in databases. However, emphasis is placed on the display of information, but not on their machine processing. Part of the thesis is design and implementation of a prototype system to retrieve data from dynamically generated web using programming by demonstration technique. Such a system allows the user to show with mouse to the system how to proceed with gathering information from the website. Based on such a example, the system will derive a procedure to acquire information on similar sites. The implemented system is able to collect user relevant information from similar sites for example in form of a simple table suitable for further machine processing.