论文部分内容阅读
近两年来,我国在强调加快城市化进程的同时不断出台各种针对房地产的调控政策,房地产市场的未来走势逐渐成为全民关注的焦点。当下城市化进程的加快推动着房地产市场的发展,在部分热门的城市中房地产行业甚至逐渐发展成了重要的支柱产业,此时对房地产行业进行深入的研究富有实际意义。通过对该行业的深入了解,一般开发商会对城市未开发土地的价值以及所建房屋的定位等方面进行研究,而本文是从普通消费者角度出发,较为直观的对我国城市二手房屋价格进行研究,研究的结果可以为消费者在购房时提供重要且合理的参考依据。对于房价的分析预测其实在房地产市场一直存在,但是至今实际在用的仍然局限于统计分析或者多元线性回归等传统方法,这些方法在如今数据井喷且社会因素繁杂的大环境下已经达不到最好的效果,同时普通机器学习模型的处理效果也满足不了高层次机构的要求。目前将大数据和深度学习技术用在房价预测方面的案例较少,针对这种前沿技术与实践脱节的现状,本文结合大数据平台,利用深度学习方法进行建模,将目前这两种最前沿的技术相结合并应用于房屋价格这一热点民生问题上,更加合理的把握数据的内部规律,将当前房价预测方法的精确度进一步提高。本文是对二手房屋的价格进行研究,但较以往的研究方法有所改变。本文所用的数据是我国城市(安徽省合肥市)的真实房产成交数据,所有房屋信息以及周边配套信息均来自真实房屋成交网站以及相关部门的官方平台,并在此基础上,构造了一套完整的房屋价格影响因素体系,以此保证最终模型的实用性。本文的核心实验是基于大数据Spark平台进行的,利用基于时序的LSTM和GRU模型结合时序性的房产数据进行房屋价格预测。为了证明该方法的有效性,选择了机器学习模型多元线性回归、决策树、随机森林、ARMA和深度学习模型LSTM和GRU,在基于普通平台和基于大数据Spark的平台上利用这六种模型分别进行房屋价格预测实验,在同一个平台上对比机器学习和深度学习的实验效果,通过不同平台的同一个模型实验结果来验证平台对实验的影响。通过实验结果得知,不论是基于普通平台还是基于大数据Spark平台,深度学习模型比机器学习模型实验的MAE以及RMSE值更低,也就是误差更小。相比于普通平台,基于大数据Spark平台的深度学习实验的MAE以及RMSE指标值更小,精确度有所提高,这主要是深度学习对大数据集的处理较为擅长,在大数据分布式平台上,自动化的交叉验证给模型提供了更好的拟合效果。基于大数据Spark平台上的所有模型实验耗时相比于普通平台都有所减少,这得益于大数据的分布式数据存储和Spark框架基于内存的计算方式。LSTM和GRU两者的实验效果类似,但在实验耗时方面GRU模型的23.53秒要少于LSTM模型的26.43秒,主要是因为GRU相比LSTM模型的循环体构造有所简化。最终可以得出结论:对于时序性的房产数据,深度学习模型LSTM和GRU要比其他机器学习模型预测更加精确。基于大数据Spark平台的LSTM和GRU模型有着更加精确的预测效果。基于大数据Spark平台可以提高实验速度,较普通平台运行效率更高。GRU模型的运行速度要快于LSTM模型。综上所述,基于大数据Spark平台上的GRU模型是可以应用于房产价格预测领域,在具有大量数据的支撑下有着更高的预测准确度和更优秀的处理效率。