Nástroj pro převod PDF na text
A Tool for Transformation of PDF to Text
bachelor thesis (NOT DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/50851Identifiers
Study Information System: 80824
Collections
- Kvalifikační práce [10690]
Author
Advisor
Referee
Falt, Zbyněk
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
General Computer Science
Department
Institute of Formal and Applied Linguistics
Date of defense
2. 2. 2012
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Czech
Grade
Fail
Keywords (Czech)
PDF, text, převodníkKeywords (English)
PDF, text, convertorNázev práce: Nástroj pro převod PDF na text Autor: Jonáš Bujok Katedra / Ústav: Ústav formální a aplikované lingvistiky (32-UFAL) Vedoucí bakalářské práce: Mgr. Jan Raab, Ústav formální a aplikované lingvistiky (32-UFAL) Abstrakt: V této práci je podrobně rozebrán postup extrakce textových informací z PDF (Portable Document Format) souborů a navrhnut, popsán a implementován program pro tento účel. Práce se zaměřuje hlavně na středoevropské jazyky. Kromě programu a jeho popisu jsou zde pak informace o objektové struktuře, syntaxi a logice PDF formátu nutné pro správné pochopení principu hledání textu v PDF souboru. Dále jsou zde rozebrány filtry, fonty a všechny další PDF objekty, které takový program musí umět zpracovat. Také se tato práce zabývá metodami a možnostmi vylepšení funkčnosti, rychlosti, paměťové náročnosti, spolehlivosti a univerzálnosti použití programu.
Title: A Tool for Transformation of PDF to Text Author: Jonáš Bujok Department: Institute of Formal and Applied Linguistics (32-UFAL) Supervisor: Mgr. Jan Raab, Institute of Formal and Applied Linguistics (32-UFAL) Abstract: In this thesis we described an extraction procedure of text information from PDF (Portable Document Format) files. Thesis is focused mainly on middle-Europe languages. We designed, described and implemented program for this purpose. Besides the program and it's description the thesis contains information about PDF format object structure, it's syntax and logic necessary for proper understanding of text searching principles in PDF file. We also discussed filters, fonts and all other PDF Objects that the program need to process. This thesis also deals with methods and possibilities of improving program's functionality, speed, memory usage, reliability an universality of usage.