Predictive Modeling for Real Estate Price Using Machine Learning Methods

Kania Štykar, Vojtěch

Prediktivní modelování cen nemovitostí pomocí metod strojového učení

diplomová práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (339.7Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/204601

Identifikátory

SIS: 272312

Oponent práce

Hlaváček, Michal

Fakulta / součást

Fakulta sociálních věd

Obor

Ekonomie a finance se specializací Finanční trhy a datová analýza

Katedra / ústav / klinika

Institut ekonomických studií

Datum obhajoby

17. 9. 2025

Nakladatel

Univerzita Karlova, Fakulta sociálních věd

Jazyk

Angličtina

Známka

Výborně

Klíčová slova (česky)

oceňování nemovitostí, strojové učení, zpracování textu, Česká republika

Klíčová slova (anglicky)

real estate valuation, machine learning, text mining, Czech Republic

Tato práce zkoumá, zda textové popisy z internetových inzerátů mohou zlepšit predikci cen bytů v České republice. Více než 1,3 milionu inzerátů z let 2014- 2024 je obohaceno o prostorové a další charakteristiky. Texty jsou převe- deny pomocí TF-IDF, Word2Vec a BERT embeddingů a spojeny s daty v regularizovaných regresích i ensemble modelech. Zařazení textových infor- mací snižuje střední absolutní chybu u Lasso a Ridge až o pět procent, ne- jvýrazněji ve venkovských oblastech. Random Forest a XGBoost dosahují ne- jlepší celkovou přesnost, ale z popisů těží minimálně, protože strukturovaná data obsahují většinu predikční informace. Výsledky ukazují, že jednoduché modely lze znatelně zlepšit využitím popisů, zatímco pokročilé ensemble algo- ritmy zůstávají nejpřesnějším nástrojem pro hromadné oceňování.

Abstrakt (anglicky)

This thesis evaluates how textual descriptions from online real estate listings can improve the prediction of apartment prices in the Czech Republic. A dataset of more than 1.3 million advertisements from 2014-2024 is enriched with locational and other features. The text is transformed into numerical rep- resentations using TF-IDF, Word2Vec and BERT embeddings and combined with structured data in regularised regression and ensemble learning models. Adding textual information reduces mean absolute error by up to five percent for Lasso and Ridge regressions, with the largest gains in rural areas. Ran- dom Forest and XGBoost deliver the highest overall accuracy but benefit little from descriptions, suggesting that they already capture most predictive signals from structured variables. The results demonstrate that simple models can be substantially enhanced by harnessing property descriptions while advanced ensembles remain dominant for mass appraisal.

Citace dokumentu

Metadata

Zobrazit celý záznam