Predictive Modeling for Real Estate Price Using Machine Learning Methods
Prediktivní modelování cen nemovitostí pomocí metod strojového učení
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/204601Identifikátory
SIS: 272312
Kolekce
- Kvalifikační práce [19688]
Autor
Vedoucí práce
Oponent práce
Hlaváček, Michal
Fakulta / součást
Fakulta sociálních věd
Obor
Ekonomie a finance se specializací Finanční trhy a datová analýza
Katedra / ústav / klinika
Institut ekonomických studií
Datum obhajoby
17. 9. 2025
Nakladatel
Univerzita Karlova, Fakulta sociálních vědJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
oceňování nemovitostí, strojové učení, zpracování textu, Česká republikaKlíčová slova (anglicky)
real estate valuation, machine learning, text mining, Czech RepublicTato práce zkoumá, zda textové popisy z internetových inzerátů mohou zlepšit predikci cen bytů v České republice. Více než 1,3 milionu inzerátů z let 2014- 2024 je obohaceno o prostorové a další charakteristiky. Texty jsou převe- deny pomocí TF-IDF, Word2Vec a BERT embeddingů a spojeny s daty v regularizovaných regresích i ensemble modelech. Zařazení textových infor- mací snižuje střední absolutní chybu u Lasso a Ridge až o pět procent, ne- jvýrazněji ve venkovských oblastech. Random Forest a XGBoost dosahují ne- jlepší celkovou přesnost, ale z popisů těží minimálně, protože strukturovaná data obsahují většinu predikční informace. Výsledky ukazují, že jednoduché modely lze znatelně zlepšit využitím popisů, zatímco pokročilé ensemble algo- ritmy zůstávají nejpřesnějším nástrojem pro hromadné oceňování.
This thesis evaluates how textual descriptions from online real estate listings can improve the prediction of apartment prices in the Czech Republic. A dataset of more than 1.3 million advertisements from 2014-2024 is enriched with locational and other features. The text is transformed into numerical rep- resentations using TF-IDF, Word2Vec and BERT embeddings and combined with structured data in regularised regression and ensemble learning models. Adding textual information reduces mean absolute error by up to five percent for Lasso and Ridge regressions, with the largest gains in rural areas. Ran- dom Forest and XGBoost deliver the highest overall accuracy but benefit little from descriptions, suggesting that they already capture most predictive signals from structured variables. The results demonstrate that simple models can be substantially enhanced by harnessing property descriptions while advanced ensembles remain dominant for mass appraisal.
