基于SVM的输电线路造价指标因素的分析及预测

来源 :中国管理信息化 | 被引量 : 0次 | 上传用户:okyy1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘 要]本文应用支持向量机算法,基于以往输电线路典型工程量和造价之间的映射样本数据,利用SVM自动选择最优复杂度模型的能力,建立起分析影响输电线路造价指标体系的模型。
  [关键词] SVM;输电线路;造价指标
  doi:10.3969/j.issn.1673 - 0194.2015.10.103
  [中图分类号]TM752;F426.61 [文献标识码]A [文章编号]1673-0194(2015)10-0-03
  本文利用数据挖掘中的支持向量机算法,完全排除人为的干预因素,通过机器学习在高维空间中找到一个最优分类面,生成一个最优复杂度模型,得到影响输电线路造价的主要指标因素并通过以往的经验数据对模型进行自主学习和训练,模型为今后电网建设全寿命造价管理和控制以及辅助决策提供一个理论指导和依据。
  1 数据挖掘机器学习——支持向量机算法
  支持向量机(Support Vector Machine,SVM)是Vapnik等人根据统计学习理论提出的一种针对小样本的机器学习理论。与传统的以神经网络为代表的机器学习方法相比,通过实践证明如果过于追求训练误差最小,会导致模型的泛化能力下降出现过拟合问题。Vapnik等人通过研究指出,需要同时控制经验风险和学习机容量,才能使模型获得良好的泛化能力,该理论的核心思想是通过引入结构风险最小化准则来控制学习机的容量。
  SVM的算法很好的实践了上述思想,通过引入核函数,甚至不需要知道非线性变换的具体形式,只需将核函数引入计算即可实现某种非线性变换,将低维空间映射到高维特征空间,再在高维特征空间中构造线性判别函数来实现原空间中的非线性判别函数。问题就转化为如何在新的映射高维空间中求取最优分类面。最优分类面就是存在这样的分类超平面,它不但能够将所有训练样本正确分类,而且使训练样本中离分类面最近的点到分类面的距离(定义为间隔)最大。通过使间隔最大化来控制分类器的复杂度,实现较好的推广能力,摆脱高维数的冗余,使其算法复杂度与样本维数无关,这正是SVM的优势所在。
  支持向量机最关键的步骤是核函数的选取,也是影响模型拟合最重要的部分,常用的核函数有。
  在实际应用中,关于核函数参数选择的问题还没有很好的解决,如多项式学习机器的阶数问题,径向基学习机器中的函数宽度问题,以及Sigmoid机器中函数的宽度和偏移问题等,统计学理论目前对这些问题只是给出了一些建议和解释。
  目前,SVM方法被越来越多地用于包括模式识别、回归估计和密度估计等多个研究领域中。本文创造性的将该方法引入输电线路工程造价指标影响因素的分析和输电线路工程项目造价预测的研究中,由于其所具有的推广能力强、解的唯一性与全局最优性等优点,使得以此方法为基础的输电线路造价模型具有较好的应用效果。针对本文所涉及的应用,其算法流程如图1所示。
  2 输电线路工程造价指标的建立
  2.1 110kV输电线路造价指标体系
  利用原始的国家电网公司110kV输电线路典型方案工程量指标和造价的关联建立造价指标体系。
  图2 输电线路工程造价指标体系
  其共有19个影响输电线路工程项目造价的因素,其中地线型号基本一致,对于110 kV电压等级的常规线路来说,基面开方、护坡、保坎产生的工程量很少,也很少用到间隔棒,除非大容量多分裂导线,从技术经济的角度分析与其如此,不如新建更高一级电压等级的线路,导、地线可归一为线材,塔材、基础钢、接地钢可归一为钢材,基坑、接地开方也可以合并,塔基数属于后评价指标,对造价形成没有影响。特别地,回路数、气象条件、导线型号共有2×4×2=16种情况,可以将其三者合并用1~16的数据表示。
  2.2 输电线路工程造价的主成分分析和工程特性的选取
  电网工程特性是决定工程造价的决定性因素,因此所选的工程因素首先要全面,如若考虑不全面,造价的特殊性和差异性就体现不出来。实践证明,工程的任何一个特征都会影响到总的工程造价,如果将所有的因素都考虑进去,所建模型就没有实际意义。因此,只能挑选那些对工程造价有较大影响的工程特性。因此,工程特性只有结合工程实际的客观规律来挑选,它的选取要“全”而“精”,尽量选取独立的因素,因素之间没有任何相关度。本论文采用主成分分析法筛选决定电网工程造价的工程特性。
  主成分分析(Principal Component Analysis,PCA)是一种数据压缩和特征提取的多变量统计分析技术,能够有效去除数据间的相关性。它的基本思路是降维,即保证数据损失尽可能最小的前提下,经过线性变换和舍弃一小部分信息,以少数新的综合变量(称为主成分)取代原始采用的多维变量,即对原来提出的p个指标综合成尽可能少的m个综合性指标,且要求这m个指标既能充分反映原来的p个变量反映的信息,又能使这m个综合变量之间互不相关,运用这m个综合变量进行样本的综合评价。在经济研究中,主成分分析法在预测领域、评定综合指标问题等领域都有广泛的应用。下面就详细展开介绍。
  由于原始指标之间不可避免地存在信息量的重复,而且指标数量过多不利于直接计算,所以利用主成分分析的方法对原始指标进行筛选。设经过预处理的数据为n*m维矩阵,n为样本数,m为评价指标数。
  (1)首先对数据进行标准化
  (4)
  式中 , (5)
  (2)计算样本相关矩阵R=(rjk)n×m (6)
  式中, (7)
  (3)计算特征值和特征向量
  由R的特征方程|R-λi|=0求相关矩阵R的m个特征值λ1,λ2,…,λm(λi≥0)及相应的特征向量C1,C2,…,Cm。
  (4)计算主成分的贡献率,每个主成分的贡献率代表了原数据占总信息量的百分比   (8)
  (5)筛选主成分
  将各主成分贡献率由高到低排列,当前s个主成分贡献率的和(累计贡献率)达到信息反映精度(一般累计贡献率达到85%即可)的要求时,取这s个主成分Z1,Z2,…,Zs作为下一阶段模型的评价指标。
  (6)构造新的样本矩阵
  根据Zi=X*Ci(i=1,2,3,…,n),计算每一个主成分的各样本值,构成新的n×s维样本矩阵,其中,n为样本数,s为指标数,即
  根据介绍的主成分分析法,首先对原始数据矩阵进行标准化,再利用Matlab工具的princomp函数对标准化后的数据进行主成分分析,得出各成分的贡献率以及各成分的累积贡献率。
  经过上述的处理,依据各成分的累积贡献率由高到低排序,可以将支持向量机的输入信号个数由19个减少到8个,分别是:线路综合情况、导地线(t/km)、杆塔基础接地钢材(t/km)、基面基坑接地开方(m3/km)、混凝土(m3/km)、绝缘子片数(片/km)、防震锤(个/km)、挂线金具(t/km),输出则是电力线路工程的单位路径长度造价(万元/km)。
  2.3 指标数据的收集及标准化处理
  由于选取的指标数据之间的量纲不同,数据差别较大,为使小的数据不被大的数据所淹没,在对其进行样本学习时,必须消除这些差别所带来的影响。样本数据的标准化处理利用线形插值,把输入节点和输出节点的信号控制在[0.1,1]之间。
  取a=max{Xi}赋予相应的权值1,取b=min{Xi}赋予相应的权值0.1,对任意样本xi的线形插值计算公式为:
  (9)
  表1是国家电网公司110kV典型方案工程造价样本经过线性插值标准化后的数据。
  3 数据仿真分析及预测
  仿真数据来源于国家电网公司110kV典型方案工程,如表1所示,依据上文所预处理的样本数据,在Matlab软件平台上利用工具箱的图形用户界面实现了SVM数据挖掘模型的建立。本文在输电线路造价影响因素分析的基础之上,把影响输电线路造价的指标因素X1i,X2i,…,X8i作为SVM的输入,把输电线路的造价yi作为SVM的期望输出,用SVM方法进行机器学习。选取前28组样本数据作为训练样本,其余11组为预测检验样本,核函数K(xi,yi)采用径向基(Radial Basis)核函数。
  (10)
  具体的参数设置为:C=1 000、ε=0.001、σ=2,在Matlab软件环境下用SVM进行仿真拟合,训练结果见表2,拟合比较见图3。
  从以上仿真结果可看出,用检验样本仿真评价的输出结果和专家评价的结果基本一致,最大相对误差为19.26%,最小相对误差为9.58%。模型输出值与实际的数值其平均误差百分比(Mean Absolute Percentage Error)是13.886 36%,在检验集上预测误差平方和(Prediction Error Sun Of Squares)是0.085 37,表明基于SVM的该模型有着良好的函数逼近能力,而且整体的推广、泛化能力也很好。
  主要参考文献
  [1]谢颖,高犁难,石振武.基于最小二乘支持向量机的公路工程造价预测模型[J].中外公路,2007(27):242-245.
  [2]刘振亚.国家电网公司输变电工程典型造价:110kV输电线路分册[M].北京:中国电力出版社,2006.
  [3]陶树人.技术经济学[M].北京:经济管理出版社,1998.
  [4]颜七笙,徐辉.基于支持向量机的企业自我实现能力综合评价方法[J].中国管理信息化,2007(10):55-56.
其他文献
摘要:本文近年来在大学内陆续兴起的名牌卡制度为背景,分析制度实施现状,简析存在的问题,并结合内容激励理论及过程激励理论为制度发展落实提供方案。  关键词: 大学 名牌卡制度 有效性 激励理论  一、制度背景:  为了方便任课教师与学生之间的课堂互动交流,改善课堂管理,自2014年起,始自清北,各985、211高等学府开始为本科生、硕士及博士研究生制作个人名牌卡,全面实行携卡上课。名牌卡上有中文姓名
[摘 要] 本文以论述“城市轨道交通线路优选系统”的系统构成、功能与原理为核心,以开发者的角度展开介绍该软件的设计思想和开发理念以及应用价值。本文共4个部分,对“城市轨道交通线路优选系统”的研究与设计由浅入深进行阐述。  [关键词] 城市轨道交通; VB.NET; Floyd算法; Mapinfo  doi : 10 . 3969 / j . issn . 1673 - 0194 . 2013 .
[摘 要]本文利用建模软件以太原市某区域为例对城市暴雨天气内涝区域进行风险研究,并对风险评价结果进行了进一步的讨论。  [关键词]城市;内涝;暴雨天气;风险;径流系数;太原  doi:10.3969/j.issn.1673 - 0194.2016.22.124  [中图分类号]P426.616;TU998.4 [文献标识码]A [文章编号]1673-0194(2016)22-0-01  0 引 言
[摘 要]每年毕业生的图书资料大部分会被当废纸卖掉,同时毕业生带走的还有四年的各种经验,如出国、就业、考研等。而每一届新生则需新购专业书籍,大学学习又重复由迷茫到探索到明理的过程。图书馆依托场馆位置、图书馆专业老师以及学生党组织的组织参与,旨在打造一个汇聚高年级学生专业学习经验和“三向”(出国、就业、读研)经验的分享平台,让每位进图书馆南书房的读者都能获得自己所需的知识,同时也有助于形成图书馆的品
[摘 要] 近年来,随着互联网的快速发展,作为典型代表的电子商务与与众多传统实体产业融合发展已成为一种主流趋势,电商下乡不仅促进农村电子商务的发展、开拓产品下乡的渠道,而且推动传统农业向智慧农业、现代农业转型升级。文章结合当前经济形势客观背景,就电商、农业两大板块的发展现状进行分析,提出存在的问题,并为二者的融合发展提出相应的对策和建议。  [关键词] 互联网 ;农村市场;电商发展  doi :
[摘 要]本文以实施职业健康安全管理体系的必要性为出发点,对目前职业健康安全管理工作展开分析,重点探讨如何科学建立和实施职业健康安全管理体系,以及实施过程中需要注意的问题,在企业中推行职业健康安全管理体系,创建企业科学安全管理模式。  [关键词]健康安全体系;安全管理;模式  doi:10.3969/j.issn.1673-0194.2015.08.117  [中图分类号]R13 [文献标识码]A
[摘 要] 研究通过对京、渝、湘、珠三角地区、长三角地区五大区域五地会计人才招聘数据的收集、归纳和分析,发现会计招聘信息中工作职位、薪资、学历要求和工作经验等所存在的明显区域性差异。该研究可为高校会计专业毕业生就业、在职人员择业以及会计从业者职业生涯规划提供指导,为高校会计人才培养提供建设性建议。  [关键词] 会计人才;市场需求;区域性差异  doi : 10 . 3969 / j . issn
[摘 要]ERP项目的实施是一项复杂的系统工程,成败的影响因素很多,本文认为ERP软件供应商派出的实施顾问的能力是影响项目实施成功的关键因素。本文认为合格的实施顾问应该是一个集管理专家、ERP软件产品专家、计算机技术熟练掌握者于一身的高级人才。而由于这样的高级人才目前很缺乏,作为企业用户必须评估、选择ERP供应商派来的实施顾问的能力。  [关键词]ERP;实施;顾问;能力  doi:10.3969
[摘 要]本文以甘肃省1995年到2013年能源消耗总量和GDP数据为基础,先利用能源消耗和经济发展的主要统计指标分析甘肃省的能源消耗和经济发展现状,并对能源消耗与经济增长关系作协整检验、建立误差修正模型及Granger因果关系检验。结果表明,甘肃省是一个高能耗的省份,能源消耗与经济增长之间存在长、短期稳定均衡关系,高能耗是经济增长的原因。  [关键词]甘肃省;能源消耗;经济增长;协整关系;因果关
[摘 要],网络水军异军突起,凭借海量的垃圾信息渔利其中,衍生成为一条初具规模的产业链。本文从电商平台着手,采取定性分析方法,拆分产业链结构,解读各利益相关方所扮演的角色。并以四维对接机制分析产业链的成因与运作模式,阐明利害关系。最后结合分析结果,对网络用户、电商商家及政府部门提出一些可行的应对建议。  [关键词]电子商务;网络水军;产业链;四维对接  doi:10.3969/j.issn.167