Automatizovaná extracia informácií z internetu
Automated web information extraction
Automatizovaná extracia informácií z internetu
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/31453Identifikátory
SIS: 82481
Katalog UK: 990013639800106986
Kolekce
- Kvalifikační práce [11978]
Autor
Vedoucí práce
Oponent práce
Dokulil, Jiří
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Softwarové systémy
Katedra / ústav / klinika
Katedra softwaru a výuky informatiky
Datum obhajoby
30. 5. 2011
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Slovenština
Známka
Dobře
Klíčová slova (česky)
extrakce dat z Webu, programování demonstracíKlíčová slova (anglicky)
Web Scraping, Programming by Demonstration1 Webové stránky zpřístupňují ohromné množství informací. Často se jedná o stránky generované z dat uložených v databázích. Přitom je kladen důraz na zobrazení informací, ale ne na jejich strojové zpracování. V diplomové práci je navrhnut a implementován prototyp systému na získávání dat z dynamicky generovaných webových stránek technikou programování demonstrací (programming by demonstration). Tento systém umožní uživateli myší ukázat, jak má systém postupovat při sběru informací z dané webové stránky. Na základe této ukázky by systém měl odvodit postup, jak získávat informace na podobných stránkách. Implementovaný systém dokáže posbírat pro uživatele relevantní informace z podobných stránek například do tvaru jednoduché tabulky vhodné na další strojové zpracování.
1 Web sites offer a huge amount of information. Often it is a page generated from data stored in databases. However, emphasis is placed on the display of information, but not on their machine processing. Part of the thesis is design and implementation of a prototype system to retrieve data from dynamically generated web using programming by demonstration technique. Such a system allows the user to show with mouse to the system how to proceed with gathering information from the website. Based on such a example, the system will derive a procedure to acquire information on similar sites. The implemented system is able to collect user relevant information from similar sites for example in form of a simple table suitable for further machine processing.
