Nástroj pro převod PDF na text
A Tool for Transformation of PDF to Text
bakalářská práce (NEOBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/50851Identifikátory
SIS: 80824
Kolekce
- Kvalifikační práce [10932]
Autor
Vedoucí práce
Oponent práce
Falt, Zbyněk
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Obecná informatika
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
2. 2. 2012
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Čeština
Známka
Neprospěl
Klíčová slova (česky)
PDF, text, převodníkKlíčová slova (anglicky)
PDF, text, convertorNázev práce: Nástroj pro převod PDF na text Autor: Jonáš Bujok Katedra / Ústav: Ústav formální a aplikované lingvistiky (32-UFAL) Vedoucí bakalářské práce: Mgr. Jan Raab, Ústav formální a aplikované lingvistiky (32-UFAL) Abstrakt: V této práci je podrobně rozebrán postup extrakce textových informací z PDF (Portable Document Format) souborů a navrhnut, popsán a implementován program pro tento účel. Práce se zaměřuje hlavně na středoevropské jazyky. Kromě programu a jeho popisu jsou zde pak informace o objektové struktuře, syntaxi a logice PDF formátu nutné pro správné pochopení principu hledání textu v PDF souboru. Dále jsou zde rozebrány filtry, fonty a všechny další PDF objekty, které takový program musí umět zpracovat. Také se tato práce zabývá metodami a možnostmi vylepšení funkčnosti, rychlosti, paměťové náročnosti, spolehlivosti a univerzálnosti použití programu.
Title: A Tool for Transformation of PDF to Text Author: Jonáš Bujok Department: Institute of Formal and Applied Linguistics (32-UFAL) Supervisor: Mgr. Jan Raab, Institute of Formal and Applied Linguistics (32-UFAL) Abstract: In this thesis we described an extraction procedure of text information from PDF (Portable Document Format) files. Thesis is focused mainly on middle-Europe languages. We designed, described and implemented program for this purpose. Besides the program and it's description the thesis contains information about PDF format object structure, it's syntax and logic necessary for proper understanding of text searching principles in PDF file. We also discussed filters, fonts and all other PDF Objects that the program need to process. This thesis also deals with methods and possibilities of improving program's functionality, speed, memory usage, reliability an universality of usage.