Využití syntaxe v metodách pro vyhledávání informací

Straková, Jana

Syntax in methods for information retrieval

dc.creator	Straková, Jana
dc.date.accessioned	2021-05-24T11:37:52Z
dc.date.available	2021-05-24T11:37:52Z
dc.date.issued	2012
dc.identifier.uri	http://hdl.handle.net/20.500.11956/47368
dc.description.abstract	Název práce: Využití syntaxe v metodách pro vyhledávání informací Autor: Bc. Jana Kravalová Katedra (ústav): Ústav formální a aplikované lingvistiky Vedoucí diplomové práce: Mgr. Pavel Pecina, Ph.D. e-mail vedoucího: pecina@ufal.mff.cuni.cz Abstrakt: V posledních letech výzkumu v oblasti vyhledávání informací je věnována značná pozornost metodám založeným na jazykovém modelování. I přesto, že tento přístup dovoluje použití libovolného jazykového modelu, většina publikovaných experimentů byla prováděna s klasickým n-gramovým modelem (mnohdy pouze s unigramovým modelem). Cílem diplomové práce je navrhnout, implementovat a vyhodnotit (na českých datech) metodu, která by pravděpodobnostní model obohatila o použití syntaktické informace získané automaticky (strojově\) z dokumentů i dotazů. V předkládané práci se pokusíme vhodným způsobem zavést syntaktickou informaci do jazykových modelů a ex- perimentálně srovnáme navržený přístup s výsledky unigramového a bigramo- vého povrchového modelu. Kromě využití syntaktické informace se zaměříme také na vliv vyhlazování, stemmingu, lemmatizace, použití stopwords a me- tody rozšiřování dotazů - pseudo relevance feedback. Provedeme také detailní analýzu použitých systémů vyhledávání informace a podrobně popíšeme jejich vlastnosti. Experimenty budou prováděny na...	cs_CZ
dc.description.abstract	Title: Information Retrieval Using Syntax Information Author: Bc. Jana Kravalová Department: Institute of Formal and Applied Linguistics Supervisor: Mgr. Pavel Pecina, Ph.D. Supervisor's e-mail address: pecina@ufal.mff.cuni.cz Abstract: In the last years, application of language modeling in infor- mation retrieval has been studied quite extensively. Although language models of any type can be used with this approach, only traditional n-gram models based on surface word order have been employed and described in published experiments (often only unigram language models). The goal of this thesis is to design, implement, and evaluate (on Czech data) a method which would extend a language model with syntactic information, automatically obtained from documents and queries. We attempt to incorporate syntactic information into language models and experimentally compare this approach with uni- gram and bigram model based on surface word order. We also empirically compare methods for smoothing, stemming and lemmatization, effectiveness of using stopwords and pseudo relevance feedback. We perform a detailed ana- lysis of these retrieval methods and describe their performance in detail. Keywords: information retrieval, language modelling, depenency syntax, smo- othing	en_US
dc.language	Čeština	cs_CZ
dc.language.iso	cs_CZ
dc.publisher	Univerzita Karlova, Matematicko-fyzikální fakulta	cs_CZ
dc.subject	information retrieval	en_US
dc.subject	language modelling	en_US
dc.subject	dependency syntax	en_US
dc.subject	smoothing	en_US
dc.subject	vyhledávání informací	cs_CZ
dc.subject	jazykové modelování	cs_CZ
dc.subject	závislostní syntax	cs_CZ
dc.subject	vyhlazování	cs_CZ
dc.title	Využití syntaxe v metodách pro vyhledávání informací	cs_CZ
dc.type	rigorózní práce	cs_CZ
dcterms.created	2012
dcterms.dateAccepted	2012-01-18
dc.description.department	Ústav formální a aplikované lingvistiky	cs_CZ
dc.description.department	Institute of Formal and Applied Linguistics	en_US
dc.description.faculty	Faculty of Mathematics and Physics	en_US
dc.description.faculty	Matematicko-fyzikální fakulta	cs_CZ
dc.identifier.repId	116499
dc.title.translated	Syntax in methods for information retrieval	en_US
dc.identifier.aleph	001425961
thesis.degree.name	RNDr.
thesis.degree.level	rigorózní řízení	cs_CZ
thesis.degree.discipline	Matematická lingvistika	cs_CZ
thesis.degree.discipline	Computational Linguistics	en_US
thesis.degree.program	Computer Science	en_US
thesis.degree.program	Informatika	cs_CZ
uk.thesis.type	rigorózní práce	cs_CZ
uk.taxonomy.organization-cs	Matematicko-fyzikální fakulta::Ústav formální a aplikované lingvistiky	cs_CZ
uk.taxonomy.organization-en	Faculty of Mathematics and Physics::Institute of Formal and Applied Linguistics	en_US
uk.faculty-name.cs	Matematicko-fyzikální fakulta	cs_CZ
uk.faculty-name.en	Faculty of Mathematics and Physics	en_US
uk.faculty-abbr.cs	MFF	cs_CZ
uk.degree-discipline.cs	Matematická lingvistika	cs_CZ
uk.degree-discipline.en	Computational Linguistics	en_US
uk.degree-program.cs	Informatika	cs_CZ
uk.degree-program.en	Computer Science	en_US
thesis.grade.cs	Uznáno	cs_CZ
thesis.grade.en	Recognized	en_US
uk.abstract.cs	Název práce: Využití syntaxe v metodách pro vyhledávání informací Autor: Bc. Jana Kravalová Katedra (ústav): Ústav formální a aplikované lingvistiky Vedoucí diplomové práce: Mgr. Pavel Pecina, Ph.D. e-mail vedoucího: pecina@ufal.mff.cuni.cz Abstrakt: V posledních letech výzkumu v oblasti vyhledávání informací je věnována značná pozornost metodám založeným na jazykovém modelování. I přesto, že tento přístup dovoluje použití libovolného jazykového modelu, většina publikovaných experimentů byla prováděna s klasickým n-gramovým modelem (mnohdy pouze s unigramovým modelem). Cílem diplomové práce je navrhnout, implementovat a vyhodnotit (na českých datech) metodu, která by pravděpodobnostní model obohatila o použití syntaktické informace získané automaticky (strojově\) z dokumentů i dotazů. V předkládané práci se pokusíme vhodným způsobem zavést syntaktickou informaci do jazykových modelů a ex- perimentálně srovnáme navržený přístup s výsledky unigramového a bigramo- vého povrchového modelu. Kromě využití syntaktické informace se zaměříme také na vliv vyhlazování, stemmingu, lemmatizace, použití stopwords a me- tody rozšiřování dotazů - pseudo relevance feedback. Provedeme také detailní analýzu použitých systémů vyhledávání informace a podrobně popíšeme jejich vlastnosti. Experimenty budou prováděny na...	cs_CZ
uk.abstract.en	Title: Information Retrieval Using Syntax Information Author: Bc. Jana Kravalová Department: Institute of Formal and Applied Linguistics Supervisor: Mgr. Pavel Pecina, Ph.D. Supervisor's e-mail address: pecina@ufal.mff.cuni.cz Abstract: In the last years, application of language modeling in infor- mation retrieval has been studied quite extensively. Although language models of any type can be used with this approach, only traditional n-gram models based on surface word order have been employed and described in published experiments (often only unigram language models). The goal of this thesis is to design, implement, and evaluate (on Czech data) a method which would extend a language model with syntactic information, automatically obtained from documents and queries. We attempt to incorporate syntactic information into language models and experimentally compare this approach with uni- gram and bigram model based on surface word order. We also empirically compare methods for smoothing, stemming and lemmatization, effectiveness of using stopwords and pseudo relevance feedback. We perform a detailed ana- lysis of these retrieval methods and describe their performance in detail. Keywords: information retrieval, language modelling, depenency syntax, smo- othing	en_US
uk.file-availability	V
uk.grantor	Univerzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistiky	cs_CZ
thesis.grade.code	U
uk.publication-place	Praha	cs_CZ
uk.thesis.defenceStatus	U
dc.identifier.lisID	990014259610106986

Soubory tohoto záznamu

Název:: 150007343.pdf
Velikost:: 426.8Kb
Formát:: application/pdf
Popis:: Text práce

Zobrazit/otevřít

Název:: 150007355.pdf
Velikost:: 38.28Kb
Formát:: application/pdf
Popis:: Abstrakt

Zobrazit/otevřít

Název:: 150007356.pdf
Velikost:: 37.46Kb
Formát:: application/pdf
Popis:: Abstrakt (anglicky)

Zobrazit/otevřít

Název:: 150008620.pdf
Velikost:: 119.6Kb
Formát:: application/pdf
Popis:: Záznam o průběhu obhajoby

Zobrazit/otevřít

Tento záznam se objevuje v následujících sbírkách

Kvalifikační práce [10923]
Theses

Zobrazit minimální záznam