Automatická extrakce dat z webových stránek
Automatic extraction of data from web pages
bakalářská práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/7515Identifikátory
SIS: 44052
Kolekce
- Kvalifikační práce [11217]
Autor
Vedoucí práce
Oponent práce
Nečaský, Martin
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Programování
Katedra / ústav / klinika
Katedra softwarového inženýrství
Datum obhajoby
18. 9. 2006
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Čeština
Známka
Výborně
V této práci jsem se zaměřil na stále rostoucí význam automatického zpracování webových stránek. Náplní práce je návrh a implementace programového nástroje, který stránky zpracovává. Úkolem tohoto nástroje je oddělit data, která uživatel z webové stránky požaduje, od jejich prezentační obálky. Zpracování jednotlivé stránky je řízeno skriptem, které definuje uživatel. Skript je třeba definovat pouze při první práci se zvolenou stránkou. Při další práci už program pracuje samostatně dle tohoto skriptu, takže získání každé další aktuální verze informací ze stránky už další práci nevyžaduje. Důraz jsem kladl především na přístupnost programu každému uživateli a minimalizaci objemu práce, který musí vynaložit při definici řídícího skriptu. Program také překonává problém se zdrojovým kódem webových stránek, který se často odchyluje od normy jazyka XHTML.
In this thesis I focused myself on the increasing importance of an automatic web page processing. Thesis deals with proposition and implementation of a program tool which proceses the web pages. The objective of this tool is to separate data, the user demands and it's presentation cover. Processing of the page is driven by a script defined by the user. It is neccessary to define the script only at the very first job at the selected page. Next time some action is performed with the page, program follows this defined script. Thus, there is no need to put any more effort to get the up-todate version of the information from the page. I laid stress mostly on accessibility of the program for ordinary users and on minimalization of a work user must do when defining the operative script. Program also solves the wide-spreaded problem with the web pages source code, which differs from the XHTML language standard.