基于SVM算法的客户诚信度评价模型的研究

来源 :城市建设理论研究 | 被引量 : 0次 | 上传用户:po54321s
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要 针对目前大量的商业活动中对客户诚信度评价方法的欠缺,本文提出了一种新型的预测模型,即将高斯核函数同SVM算法相结合,在非线性多维特征解空间的环境下,也可做到较为准确的评估。通过实践验证,同以往的预测模型相比较,该算法不论在预测准确性以及泛化能力上都有更为突出的表现。
  关键词:诚信度评价SVM
  中图分类号:F84 文献标识码:A 文章编号:
  
  1、引言
  近年来,中国经济发展迅猛,不论在实体经济还是电子商务领域都取得了举世瞩目的成就。但随着各种贸易成交数量大幅度上升的同时,也暴露出了许多的问题,例如信息不对称、各种商业欺诈、以及各种干扰因素使得交易无法履行等。尤其是关于客户诚信度担忧,使得很多交易无法正常运转,所以一个好的客户诚信度评价模型为这些企业带来的帮助和效益是毋庸置疑的。
  诚信度评价的结果就是客户可能因为各种原因而导致的无法履约的概率,而这一模型需要采集和客户相关的原始材料,通过预测算法将客户进行分类(最简单的分类法就是分违约和履约两类),或者通过算法估计出违约概率,以及目前使用比较多的评分制度,总体上看,诚信度评价就是一种对客户的分类问题。分类问题的研究领域非常广泛,尤其在人工智能算法领域中更是研究的热点,例如遗传算法和神经网络系统等,但这些算法仍然存在很多不足,例如算法复杂度过高、操作难度大、干扰因素多导致局部收敛等问题,而且很多算法本质属于是“黑盒”结构,这类不透明的算法本身的合理性就存在很大的质疑。
  2、SVM算法
  支持向量机SVM(Support Vector Machine)是统计机器学习的一类重要算法,它根据统计学习理论,以结构风险最小化原则为理论基础的一种新的机器学习方法,能有效地解决高维数和非线性等问题,有效地进行分类、回归等。与其它分类器相比,SVM具有更好的泛化性。
  
  3、诚信度评价的SVM模型设计
  
  SVM算法的本质是将采集的两个样本群体分类划归至两个类别,分别用核函数的正负值来表示,并将正负类别进行隔离化处理。即距超平面最近的异类向量之间的距离最大。
  决策函数为:(1)
  其中,表示诚信客户,能够确认履约;相反,确认不能履约的非诚信客户用
  表示,以此来构造训练样本群体为,式中。设使用超平面来将正负类分隔,则可得到关于正负类的两个平面,分别是和(2)
  现考虑两种极限解,即①所有客户均为诚信履约客户,则这些客户点都落在上,则有:(3)
  反之,非诚信违约客户点都在上,则有:
  (4)
  上述不等式可以看出,我们可通过调节参数W和b的值,来比较和权衡,最后确定最佳的超平面公式,评价的标准即间距达到最大值。据此可以将最佳超平面的求解问题演变为优化问题,即
  ;(5)
  之所以采用,是为了将处理的更为平滑,减少算法曲线局部收敛的可能,从而提高了算法优化的准确性。
  考虑到算法所优化的实际场合中,很多情况下必须兼顾到非线性问题,因此在以上模型的基础上,添加了核函数技术,即可很好的解决多维非线性问题。同时考虑在实际应用中,很多约束条件本身具有一定的不确定性,如有些条件是可退让的,即可软化的,因此添加软化因子;而有些条件是硬性的,不允许有些许误差,因此增加惩罚因子,C的值越大,表明此解受到的懲罚力度越大。式(5)可改进为:
   ;(6)
  再将上式引入原始对偶问题的极小化函数,则可得到:
  (7)
  解得;
  ;
   (8)
  由此,最终得到了式(1)当中所列的决策函数:,下一步就要对所采集样本进行训练和验证。
  
  4、样本群体的训练和验证
  4.1客户诚信度评价指标的选择
  客户的诚信度高低是有很多因素共同构成的,且相互之间存在一定的关联性。要想全面考虑所有的影响因素是不可能的,因为不同的用户受其影响的概率和程度都有所不同,只能抓住主要因素,舍弃次要因素,才能做出较为客观的评价。参考指标的选择是非常关键的环节,不论是将次要因素当做主要因素来归纳到指标系统,还是漏选了主要因素,都会对预测结果带来严重的影响,使其以一个较大的幅度偏离真实值,从而失去了预测的准确性。本文综合考虑的多方面因素,进行了比较深入的调研,然后依据指标选取原则最终选取了9项客户诚信度评价指标,如表1所示:
  表1 客户诚信度评价指标
  
  
  4.2样本采集和处理
  从本地一家LED灯具厂采集客户数据样本,使用随机法抽取两组客户数据,分别为诚信客户组65家和非诚信客户组30家。诚信客户组以往业绩良好,无违约前例;非诚信客户组里的企业资信较差,或有违约前例,或因其他理由拖延履行以及中途提出修改合同条款。两组样本数量一共为95家企业数据,构成原始数据样本集,再将其划分为训练样本集和测试样本集。
  4.3 SVM模型分析及结果验证
  依照前文所述,建立样本集,按照本案例,参数X 的维数为9,Y的值根据客户诚信与否来定,诚信客户为1,非诚信客户为-1。通过大量的实验数据同真实数据的比对,我们可以获得最佳的核函数参数,训练样本同测试样本的结果比对表如下所示:
  表2 结果分析表
  
  
  通过实际数据的验证,可以看出基于SVM算法建立预测模型可以达到很好的准确性,明显高于目前所使用的分类评估模型,这说明SVM具有较高的分类能力,具有更好的泛化能力,可以更好的适应商业场合对客户诚信度评价的需求。
  
  参考文献
  [1]吴冲,夏晗. 基于支持向量机集成的电子商务环境下客户信用评估模型研究[J]. 中国管理科学, 2008.10(16)367
  [2]魏丹.支持向量机多分类预测技术研究. 硕士学位论文,2008,4
  
  作者简介:薛翔,出生于1975年6月,男,江苏盐城人,本科学历,盐城市盐都区机关事业社会保险中心副主任,电子信息工程师,计算机程序设计。
其他文献
本文阐述了煤矿机电管理存在的一些主要问题,包括管理不到位,技术力量薄弱,设备安全隐患多,资金投入不足等;提出了改进的管理对策,促进各个地方的煤矿机电管理进一步规范化。
摘要:施工现场是施工质量保证的主阵地,施工现场管理是建筑工程管理的主要内容,为此, 我们应该高度重视建筑施工现场管理工作,想方设法提高工程管理水平。本文介绍了建筑施工现场的管理存在的问题,并探讨了建筑工程现场施工管理的措施,意在不断提高建筑施工现场管理水平。  关键字:建筑工程;施工现场;管理  中图分类号:TU198 文献标识码:A 文章编号:  一、引言  建筑工程施工现场管理是一项具体而细致
近年来,随着国民经济的快速发展,我国城市基础建设规模逐渐加大。本文阐述了软土深基坑的挖土施工技术,如何才能保证软土深基坑顺利开挖至设计标高,为后续工序打下良好的基础,就此
港口作为水陆货物运输的枢纽,具备发展临港工业区、转口贸易、港口保税区和自由港、自由贸易区的条件,在国际贸易和运输系统中处于十分重要的战略地位。现代物流的兴起使港口之
工程测绘测量技术在工程建设的过程中有着广泛的应用,在进行工程测绘与测量的过程中,根据工程的实际情况选择恰当的测量技术,能够更好的保证测量的质量,从而为工程的建设提供充足
随着人们生活水平的不断提高,对电气设备工程安装也提出了更高的要求,安全用电、家电用电、照明等需要只是电气设备安装工程中的一个部分,更为重要的是方便、使用、美观等方面的
分析剪刀楼梯的优缺点,详细阐述其适用范围和主要方式,提出设计技巧
房地产开发的成本管理是全员、全过程的动态管理过程,既要有有力的管理制度体系支撑,又要借助科学、先进的管理标准和管理工具企业成木管理要建设完善的成本管理体系,加强实施过
随着我国经济的飞速发展,建筑业也如雨后春笋般的崛起。而在施工过程中工程测量是一个重要的环节。测量的准确性对主体建筑物的质量有着很大的影响。本文对如何加强建筑施工测
对于任何一个行业领域、工作人员来说,安全管理工作有其自身不可替代的价值性,而建筑行业作为一个特殊的发展行业,其安全管理工作开展的良好与否将会直接影响到人们生活质量,社会