Predictive Modeling for Real Estate Price Using Machine Learning Methods
Prediktivní modelování cen nemovitostí pomocí metod strojového učení
diploma thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/204601Identifiers
Study Information System: 272312
Collections
- Kvalifikační práce [19620]
Author
Advisor
Referee
Hlaváček, Michal
Faculty / Institute
Faculty of Social Sciences
Discipline
Economics and Finance with specialisation in Financial Markets and Data Analysis
Department
Institute of Economic Studies
Date of defense
17. 9. 2025
Publisher
Univerzita Karlova, Fakulta sociálních vědLanguage
English
Grade
Excellent
Keywords (Czech)
oceňování nemovitostí, strojové učení, zpracování textu, Česká republikaKeywords (English)
real estate valuation, machine learning, text mining, Czech RepublicTato práce zkoumá, zda textové popisy z internetových inzerátů mohou zlepšit predikci cen bytů v České republice. Více než 1,3 milionu inzerátů z let 2014- 2024 je obohaceno o prostorové a další charakteristiky. Texty jsou převe- deny pomocí TF-IDF, Word2Vec a BERT embeddingů a spojeny s daty v regularizovaných regresích i ensemble modelech. Zařazení textových infor- mací snižuje střední absolutní chybu u Lasso a Ridge až o pět procent, ne- jvýrazněji ve venkovských oblastech. Random Forest a XGBoost dosahují ne- jlepší celkovou přesnost, ale z popisů těží minimálně, protože strukturovaná data obsahují většinu predikční informace. Výsledky ukazují, že jednoduché modely lze znatelně zlepšit využitím popisů, zatímco pokročilé ensemble algo- ritmy zůstávají nejpřesnějším nástrojem pro hromadné oceňování.
This thesis evaluates how textual descriptions from online real estate listings can improve the prediction of apartment prices in the Czech Republic. A dataset of more than 1.3 million advertisements from 2014-2024 is enriched with locational and other features. The text is transformed into numerical rep- resentations using TF-IDF, Word2Vec and BERT embeddings and combined with structured data in regularised regression and ensemble learning models. Adding textual information reduces mean absolute error by up to five percent for Lasso and Ridge regressions, with the largest gains in rural areas. Ran- dom Forest and XGBoost deliver the highest overall accuracy but benefit little from descriptions, suggesting that they already capture most predictive signals from structured variables. The results demonstrate that simple models can be substantially enhanced by harnessing property descriptions while advanced ensembles remain dominant for mass appraisal.
