Nástroj pro převod PDF na text

Bujok, Jonáš

A Tool for Transformation of PDF to Text

bakalářská práce (NEOBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (80.64Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/50851

Identifikátory

SIS: 80824

Katalog UK: 990014515250106986

Oponent práce

Falt, Zbyněk

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Obecná informatika

Katedra / ústav / klinika

Ústav formální a aplikované lingvistiky

Datum obhajoby

2. 2. 2012

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Čeština

Známka

Neprospěl

Klíčová slova (česky)

PDF, text, převodník

Klíčová slova (anglicky)

PDF, text, convertor

Název práce: Nástroj pro převod PDF na text Autor: Jonáš Bujok Katedra / Ústav: Ústav formální a aplikované lingvistiky (32-UFAL) Vedoucí bakalářské práce: Mgr. Jan Raab, Ústav formální a aplikované lingvistiky (32-UFAL) Abstrakt: V této práci je podrobně rozebrán postup extrakce textových informací z PDF (Portable Document Format) souborů a navrhnut, popsán a implementován program pro tento účel. Práce se zaměřuje hlavně na středoevropské jazyky. Kromě programu a jeho popisu jsou zde pak informace o objektové struktuře, syntaxi a logice PDF formátu nutné pro správné pochopení principu hledání textu v PDF souboru. Dále jsou zde rozebrány filtry, fonty a všechny další PDF objekty, které takový program musí umět zpracovat. Také se tato práce zabývá metodami a možnostmi vylepšení funkčnosti, rychlosti, paměťové náročnosti, spolehlivosti a univerzálnosti použití programu.

Abstrakt (anglicky)

Title: A Tool for Transformation of PDF to Text Author: Jonáš Bujok Department: Institute of Formal and Applied Linguistics (32-UFAL) Supervisor: Mgr. Jan Raab, Institute of Formal and Applied Linguistics (32-UFAL) Abstract: In this thesis we described an extraction procedure of text information from PDF (Portable Document Format) files. Thesis is focused mainly on middle-Europe languages. We designed, described and implemented program for this purpose. Besides the program and it's description the thesis contains information about PDF format object structure, it's syntax and logic necessary for proper understanding of text searching principles in PDF file. We also discussed filters, fonts and all other PDF Objects that the program need to process. This thesis also deals with methods and possibilities of improving program's functionality, speed, memory usage, reliability an universality of usage.

Citace dokumentu

Metadata

Zobrazit celý záznam