R软件在西部地区新型城镇化测度中的应用

来源 :现代商贸工业 | 被引量 : 0次 | 上传用户:tc2020
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:
  主成分分析能够对各种数据进行降维,应用广泛,但当得到的结果和现实有差距时要进行修正。利用层次分析方法对主成分的结果进行修正。利用R软件,给出了西部地区新型城镇化水平的综合得分,为西部地区新型城镇化建设提供一定的指导。
  关键词:
  R软件;新型城镇化;主成分分析;层次分析法
  中图分类号:TB
  文献标识码:A
  文章编号:16723198(2016)04021702
  1 引言
  主成分分析方法在综合评价中是经常用到的方法,其基本思想是变量降维,将大量相关的变量综合成少数几个主成分,从而简化问题,便于分析。然而,主成分分析方法有一定的局限性,其中一种局限为很多重要的变量往往占的权重比较小。新型城镇化发展需要“动力、质量、公平”三者有机统一,但是运用主成分之后,公平性的指标占的比例较小,这与新型城镇化的内涵不相符。一方面由于城镇化公平性的指标不易得,另一方面体现了主成分分析方法的局限性。
  本文尝试对主成分分析方法的局限性进行改进。以西部地区新型城镇化水平测度为例,基于R软件,首先运用主成分分析方法,得到几个综合的主成分及其权重,之后利用层次分析方法,通过比较矩阵确定主成分权重,然后利用加权方法最终确定综合主成分的权重,最后给出西部地区新型城镇化的综合得分。
  2 西部地区新型城镇化测度
  选取的西部地区包括内蒙古、广西、重庆、四川、贵州、云南、西藏、陕西、甘肃、青海、宁夏、新疆。考虑西部地区新型城镇化的特殊性及相关指标的易得性,参照王等的城镇化指标的选取,本文从新型城镇化发展动力、发展质量以及发展公平等方面选取了10个指标,指标如下:人口地区生产总值、资本形成总额、公共财政收入、城镇居民消费、年末公共交通车辆运营数、年末实有道路长度、生活垃圾清运量、森林覆盖率、城镇居民人均可支配收入、年末城镇人口比重。数据来自2014年中国统计年鉴。
  2.1 主要函数说明
  (1)对数据进行标准化处理的函数:scale()函数。函数用法:scale(x,center=TRUE,scale=TRUE),主要参数:x:数值型矩阵;center和scale均为逻辑参数,当center=TRUE,scale=TRUE时,对x进行标准化处理。
  (2)KMO检验及Bartlett球形检验函数:KMO()函数及cortest.bartlett()。函数用法:KMO(r),主要参数:r:相关系数矩阵。
  cortest.bartlett(R,n=NULL),主要参数:R:相关系数矩阵;n:样本容量。在使用cortest.bartlett()时,需要加载psych包。
  (3)主成分分析主要函数:principal()。函数用法:principal(r,nfactors=1,residuals=FALSE,rotate="varimax",n.obs=NA,covar=FALSE,scores=TRUE,missing=FALSE,impute="median",oblique.scores=TRUE,method="regression"),主要参数:r:相关系数矩阵或是原始数据矩阵;nfactors:需要提取的主成分个数,默认为1;rotate:旋转方法,默认的为方差最大化旋转varimax;scores:当scores=TRUE时,计算主成分得分。在使用principal()時,需要加载psych包。
  2.2 应用实例及解释
  2.2.1 分析的基本步骤
  第一步:读入数据。read.csv()函数读入数据。第二步:对数据进行预处理,包括对逆变量的处理以及数据的标准化处理。由于我们选择的变量均为正指标及中性指标,因此我们只对数据进行标准化处理。运用的函数为scale()函数。第三步:进行KMO检验及Bartlett球形检验,Bartlett球形检验的P值小于0.05时,可以认为相关系数矩阵与单位矩阵有显著性差异。当KMO检验的值大于0.5时,适合做主成分分析。运用的函数为KMO()和cortest.bartlett()。第四步:主成分提取、旋转命名及主成分得分的计算。一般根据相关系数矩阵的特征值大于1来确定主成分的个数,或者选取累计方差贡献率大于0.85时的特征根的个数为主成分的个数。通过旋转,使得一个变量只在尽可能少的成分上有较高的载荷,这样使得主成分的实际含义更加清晰,便于命名。当主成分确定之后,可以计算各个主成分在每个样本上的具体数值,这些数值被称为主成分得分。运用的函数为principal()。第五步:主成分权重确定,采用主成分权重与层次分析的权重结合的综合赋权法:wj=ρwjp+(1-ρ)wje,其中为wjp主成分析得到的权重,wje为层次分析方法确定的权重,ρ为两种方法的权重系数,当得到的主成分权重系数与事实相差不大时,一般ρ取为0.4,当得到的主成分权重系数与事实相差比较大时,ρ可适当减少。
  2.2.2 结果解释
  读取数据:data<-read.csv("data.csv",header=TRUE)
  Sdata<-scale(data[2:11])
  KMO检验及Bartlett球形检验:
  library(mnormt);library(psych)
  KMO(cor(Sdata));
  cortest.bartlett(Sdata);
  结果如下:KMO值为0.59
  Bartlett球形检验:
  Chi-Square:149.5036 df:45 p.value:
  3.851722e-13   由于KMO檢验值为0.59大于0.5,且Bartlett球形检验的P值小于0.05,则认为该数据适合做主成分分析。
  主成分分析:
  pc<-principal(Sdata,nfactors=3,rotate="varimax",scores=TRUE)
  部分结果如表1、表2:
  由表2得:SS loadings为特征值,Proportion Var为方差解释比例,当选取3个主成分时,方差贡献率达到了94%,因此我们选取3个主成分。
  由表1得:资本形成总额、公共财政收入、年末公共交通车辆运营数、年末实有道路长度及生活垃圾清运量在第一个成分上有较高的载荷,因此PC1可解释为公共基础设施,体现了新型城镇化的质量。人均地区生产总值、城镇居民消费及年末城镇人口比重在第二个成分上有较高的载荷,因此PC2可解释为经济基础,体现了新型城镇化的动力。森林覆盖率及城镇居民人均可支配收入在第三个成分上有较高的载荷,因此PC3可解释为环境及收入,体现了新型城镇化的公平。
  由表3可得:新型城镇化的质量方面,四川最好,其次是内蒙古,再次是新疆;新型城镇化的动力方面,内蒙古最好,其次是重庆,再次是宁夏;新型城镇化的公平方面,最好是广西,其次是云南,再次是重庆。
  新型城镇化需要“动力、质量、公平”三者有机统一,其中公平方面非常重要,但是运用主成分分析后三者的比例为0.46∶0.37∶0.17,公平性的比重占的很小,因此需要对其修正,修正方法用层次分析法。
  层次分析方法的目标层为新型城镇化,指标层为得到的三个主成分,我们仅仅计算指标层的权重,因此只需构造一个判断矩阵即可,构造判断矩阵需要两两比较,参考及标度得到判断矩阵为:
  由表4可得:新型城镇化最好的地区为内蒙古、其次是重庆、再次是广西和四川。新型城镇化最差的地区为青海和甘肃。在此基础上充分考虑每个地区的特殊性及各个成分上的得分,合理规划建设新型城镇化。
  3 总结
  主成分分析能够对各种数据进行降维,应用广泛,但得到的结果和现实有差距时要进行修正,我们利用层次分析方法对其结果进行修正,最终给出了西部地区新型城镇化的综合得分,为西部地区新型城镇化建设提供一定的指导。
  参考文献
  [1]王琴梅,杨军鸽.关天经济区新型城镇化水平综合评价—基于PCA分析法[J].西安财经学院学报,2015,(2):3036.
  [2]牛晓春,杜忠潮,李同昇.基于新型城镇化视角的区域城镇化水平评价—以陕西省10个省辖市为例[J].干旱区地理,2013,(1):354363.
  [3]谢益辉.基于R软件rpart包的分类与回归树应用[J].统计与信息论坛,2007,(9):6770.
  [4]张贡生.中国特色的城镇化:文献综述[J].兰州商学院学报,2014,(12):4649.
  [5]R Core Team.R:A Language and Environment for Statistical Computing[Z].R Foundation for Statistical Computing,Vienna, Austria,2014,URL: http://www.Rproject.org/.
其他文献
一位来自国外的专业观众.手拿产品介绍,对比产品的不同部位.认真、详细的询问着。这一场景是我们到大森长空展位准备采访时拍到的。而令那位国外观众心动的设备.正是这款新鲜问世
在我校工会原有“三真”建“三桥”工作内涵不断深化的基础上,本文重点介绍了工会水滴文化建设,并结合工会实际从“晶莹剔透、水滴石穿、润物无声,自我超越”四个方面论述了工会
目的观察男性不育症患者精浆中白细胞介素-2(IL-2)、白细胞介素-4(IL-4)含量及其与精液动态参数的相关性。方法对75例男性不育症患者(精子密度≥20~106/mL)和22例正常生育者进行精液
产品特性1.大大降低了印刷现场的甲苯、丁酮等环境污染;2.印刷品的残留溶剂非常低,特别适用于食品包装的印刷;3.应用广泛,采用单液方式就可以用于快餐食品包装、蒸煮包装等;4
本文针对当代思想政治工作遇到的日益复杂的问题,结合相关心理学知识,讨论了在思想政治工作与心理学的联系,以及后者对前者之积极作用,并分享了相关工作实例。
陆桥的发展始终受人瞩目.与其他国产品牌相比,他似乎总能抢占先机。在所有自主研发产品中.陆桥产品的口碑和反馈最让人满意.产品的市场占有率也最拿得出手。然而陆桥似乎不并不满
目的 了解永嘉地区腹股沟疝患病率及无张力修补术治疗后患者慢性疼痛流行病学特征及相关危险因素. 方法采用随机抽样和分层抽样法对2 718例有效研究对象进行流行病学调查,采
本文介绍了Intemet与校园网二级网络安全管理的主要技术,讨论了校园网上基于包过滤的安全原则的设计,以及用Cisco路由器实现这些安全原则所采用具体的技术。
企业的生存与发展离不开先进控制技术和信息技术的集成。以某化学工业生产企业聚丙烯生产过程中的核心设备——丙烯-水换热器上的基于DCS的实时在线监测预报系统为研究对象,
检测误差是食品化验员在进行检验检测时,因主观认识和操作水平、检测手段、环境因素等的不同,而使检测结果往往与真实数据存在一定的偏差。因此,为了避免产生较大的误差,化验