论文部分内容阅读
在当前的大环境下,世界经济正在深度调整,国内外的发展环境十分复杂。世界经济正在持续的走缓,而国家正在实行宏观调控来实现经济的发展,工业在一个国家中起着关键的作用。工业是一个国家发展和腾飞的动力,是一个国家重要的一部分经济基础。在今年,我国的工业发展有着重要的机遇,从当前的经济形势的指标来看,我国的就业形势基本平稳,价格的总水平也基本持平,经济在保持着稳速的增长。本文的选题数据来源于《2013年中国统计年鉴》,该年鉴统计了中国自改革开放以来三十多年的汇总多方面的经济数据,并且按照时间、按照地区等多方面划分来研究中国的经济数据。数据挖掘是一门综合性的研究学科,它综合了数学知识、概率知识、数据库知识、生物知识等各种学科的交叉学科,并且在当前社会的经济、数学、生物、科学等多方面的领域里均有着广泛的应用。通过研究《中国统计年鉴》中的工业统计数据和居民消费数据,本文主要建立了两个模型。第一个模型是聚类分析模型。聚类分析是数据挖掘中常用的一种算法,K均值聚类分析是聚类分析中的经典算法。本文使用K均值聚类研究2013年《中国统计年鉴》中的工业统计数据,并对全国31个省市自治区直辖市进行聚类,得到聚类结果,并联系实际情况分析我国不同地域的工业发展。第二个模型是主成分回归模型。主成分分析是一种降维的办法,是利用线性变换将多个变量转化为少数主成分的过程,多元线性回归是利用线性关系将因变量和多个自变量建立起回归的模型的过程。本文将多元线性回归和主成分分析两者相结合起来,建立主成分回归模型,并将这种模型应用到中国统计年鉴中的数据中。工业发展对社会中的人均消费水平有着一定的影响,主成分分析模型就是研究工业统计数据和人均消费水平之间的关系。建立人均消费水平和多个工业统计数据之间的主成分回归模型,首先,将工业统计数据进行主成分分析,然后将人均消费水平和主成分分析的结果建立多元线性回归,得到主成分回归的结果,并与其他回归方法做比较,发现主成分回归的效果比较好。