论文部分内容阅读
摘要 针对目前大量的商业活动中对客户诚信度评价方法的欠缺,本文提出了一种新型的预测模型,即将高斯核函数同SVM算法相结合,在非线性多维特征解空间的环境下,也可做到较为准确的评估。通过实践验证,同以往的预测模型相比较,该算法不论在预测准确性以及泛化能力上都有更为突出的表现。
关键词:诚信度评价SVM
中图分类号:F84 文献标识码:A 文章编号:
1、引言
近年来,中国经济发展迅猛,不论在实体经济还是电子商务领域都取得了举世瞩目的成就。但随着各种贸易成交数量大幅度上升的同时,也暴露出了许多的问题,例如信息不对称、各种商业欺诈、以及各种干扰因素使得交易无法履行等。尤其是关于客户诚信度担忧,使得很多交易无法正常运转,所以一个好的客户诚信度评价模型为这些企业带来的帮助和效益是毋庸置疑的。
诚信度评价的结果就是客户可能因为各种原因而导致的无法履约的概率,而这一模型需要采集和客户相关的原始材料,通过预测算法将客户进行分类(最简单的分类法就是分违约和履约两类),或者通过算法估计出违约概率,以及目前使用比较多的评分制度,总体上看,诚信度评价就是一种对客户的分类问题。分类问题的研究领域非常广泛,尤其在人工智能算法领域中更是研究的热点,例如遗传算法和神经网络系统等,但这些算法仍然存在很多不足,例如算法复杂度过高、操作难度大、干扰因素多导致局部收敛等问题,而且很多算法本质属于是“黑盒”结构,这类不透明的算法本身的合理性就存在很大的质疑。
2、SVM算法
支持向量机SVM(Support Vector Machine)是统计机器学习的一类重要算法,它根据统计学习理论,以结构风险最小化原则为理论基础的一种新的机器学习方法,能有效地解决高维数和非线性等问题,有效地进行分类、回归等。与其它分类器相比,SVM具有更好的泛化性。
3、诚信度评价的SVM模型设计
SVM算法的本质是将采集的两个样本群体分类划归至两个类别,分别用核函数的正负值来表示,并将正负类别进行隔离化处理。即距超平面最近的异类向量之间的距离最大。
决策函数为:(1)
其中,表示诚信客户,能够确认履约;相反,确认不能履约的非诚信客户用
表示,以此来构造训练样本群体为,式中。设使用超平面来将正负类分隔,则可得到关于正负类的两个平面,分别是和(2)
现考虑两种极限解,即①所有客户均为诚信履约客户,则这些客户点都落在上,则有:(3)
反之,非诚信违约客户点都在上,则有:
(4)
上述不等式可以看出,我们可通过调节参数W和b的值,来比较和权衡,最后确定最佳的超平面公式,评价的标准即间距达到最大值。据此可以将最佳超平面的求解问题演变为优化问题,即
;(5)
之所以采用,是为了将处理的更为平滑,减少算法曲线局部收敛的可能,从而提高了算法优化的准确性。
考虑到算法所优化的实际场合中,很多情况下必须兼顾到非线性问题,因此在以上模型的基础上,添加了核函数技术,即可很好的解决多维非线性问题。同时考虑在实际应用中,很多约束条件本身具有一定的不确定性,如有些条件是可退让的,即可软化的,因此添加软化因子;而有些条件是硬性的,不允许有些许误差,因此增加惩罚因子,C的值越大,表明此解受到的懲罚力度越大。式(5)可改进为:
;(6)
再将上式引入原始对偶问题的极小化函数,则可得到:
(7)
解得;
;
(8)
由此,最终得到了式(1)当中所列的决策函数:,下一步就要对所采集样本进行训练和验证。
4、样本群体的训练和验证
4.1客户诚信度评价指标的选择
客户的诚信度高低是有很多因素共同构成的,且相互之间存在一定的关联性。要想全面考虑所有的影响因素是不可能的,因为不同的用户受其影响的概率和程度都有所不同,只能抓住主要因素,舍弃次要因素,才能做出较为客观的评价。参考指标的选择是非常关键的环节,不论是将次要因素当做主要因素来归纳到指标系统,还是漏选了主要因素,都会对预测结果带来严重的影响,使其以一个较大的幅度偏离真实值,从而失去了预测的准确性。本文综合考虑的多方面因素,进行了比较深入的调研,然后依据指标选取原则最终选取了9项客户诚信度评价指标,如表1所示:
表1 客户诚信度评价指标
4.2样本采集和处理
从本地一家LED灯具厂采集客户数据样本,使用随机法抽取两组客户数据,分别为诚信客户组65家和非诚信客户组30家。诚信客户组以往业绩良好,无违约前例;非诚信客户组里的企业资信较差,或有违约前例,或因其他理由拖延履行以及中途提出修改合同条款。两组样本数量一共为95家企业数据,构成原始数据样本集,再将其划分为训练样本集和测试样本集。
4.3 SVM模型分析及结果验证
依照前文所述,建立样本集,按照本案例,参数X 的维数为9,Y的值根据客户诚信与否来定,诚信客户为1,非诚信客户为-1。通过大量的实验数据同真实数据的比对,我们可以获得最佳的核函数参数,训练样本同测试样本的结果比对表如下所示:
表2 结果分析表
通过实际数据的验证,可以看出基于SVM算法建立预测模型可以达到很好的准确性,明显高于目前所使用的分类评估模型,这说明SVM具有较高的分类能力,具有更好的泛化能力,可以更好的适应商业场合对客户诚信度评价的需求。
参考文献
[1]吴冲,夏晗. 基于支持向量机集成的电子商务环境下客户信用评估模型研究[J]. 中国管理科学, 2008.10(16)367
[2]魏丹.支持向量机多分类预测技术研究. 硕士学位论文,2008,4
作者简介:薛翔,出生于1975年6月,男,江苏盐城人,本科学历,盐城市盐都区机关事业社会保险中心副主任,电子信息工程师,计算机程序设计。
关键词:诚信度评价SVM
中图分类号:F84 文献标识码:A 文章编号:
1、引言
近年来,中国经济发展迅猛,不论在实体经济还是电子商务领域都取得了举世瞩目的成就。但随着各种贸易成交数量大幅度上升的同时,也暴露出了许多的问题,例如信息不对称、各种商业欺诈、以及各种干扰因素使得交易无法履行等。尤其是关于客户诚信度担忧,使得很多交易无法正常运转,所以一个好的客户诚信度评价模型为这些企业带来的帮助和效益是毋庸置疑的。
诚信度评价的结果就是客户可能因为各种原因而导致的无法履约的概率,而这一模型需要采集和客户相关的原始材料,通过预测算法将客户进行分类(最简单的分类法就是分违约和履约两类),或者通过算法估计出违约概率,以及目前使用比较多的评分制度,总体上看,诚信度评价就是一种对客户的分类问题。分类问题的研究领域非常广泛,尤其在人工智能算法领域中更是研究的热点,例如遗传算法和神经网络系统等,但这些算法仍然存在很多不足,例如算法复杂度过高、操作难度大、干扰因素多导致局部收敛等问题,而且很多算法本质属于是“黑盒”结构,这类不透明的算法本身的合理性就存在很大的质疑。
2、SVM算法
支持向量机SVM(Support Vector Machine)是统计机器学习的一类重要算法,它根据统计学习理论,以结构风险最小化原则为理论基础的一种新的机器学习方法,能有效地解决高维数和非线性等问题,有效地进行分类、回归等。与其它分类器相比,SVM具有更好的泛化性。
3、诚信度评价的SVM模型设计
SVM算法的本质是将采集的两个样本群体分类划归至两个类别,分别用核函数的正负值来表示,并将正负类别进行隔离化处理。即距超平面最近的异类向量之间的距离最大。
决策函数为:(1)
其中,表示诚信客户,能够确认履约;相反,确认不能履约的非诚信客户用
表示,以此来构造训练样本群体为,式中。设使用超平面来将正负类分隔,则可得到关于正负类的两个平面,分别是和(2)
现考虑两种极限解,即①所有客户均为诚信履约客户,则这些客户点都落在上,则有:(3)
反之,非诚信违约客户点都在上,则有:
(4)
上述不等式可以看出,我们可通过调节参数W和b的值,来比较和权衡,最后确定最佳的超平面公式,评价的标准即间距达到最大值。据此可以将最佳超平面的求解问题演变为优化问题,即
;(5)
之所以采用,是为了将处理的更为平滑,减少算法曲线局部收敛的可能,从而提高了算法优化的准确性。
考虑到算法所优化的实际场合中,很多情况下必须兼顾到非线性问题,因此在以上模型的基础上,添加了核函数技术,即可很好的解决多维非线性问题。同时考虑在实际应用中,很多约束条件本身具有一定的不确定性,如有些条件是可退让的,即可软化的,因此添加软化因子;而有些条件是硬性的,不允许有些许误差,因此增加惩罚因子,C的值越大,表明此解受到的懲罚力度越大。式(5)可改进为:
;(6)
再将上式引入原始对偶问题的极小化函数,则可得到:
(7)
解得;
;
(8)
由此,最终得到了式(1)当中所列的决策函数:,下一步就要对所采集样本进行训练和验证。
4、样本群体的训练和验证
4.1客户诚信度评价指标的选择
客户的诚信度高低是有很多因素共同构成的,且相互之间存在一定的关联性。要想全面考虑所有的影响因素是不可能的,因为不同的用户受其影响的概率和程度都有所不同,只能抓住主要因素,舍弃次要因素,才能做出较为客观的评价。参考指标的选择是非常关键的环节,不论是将次要因素当做主要因素来归纳到指标系统,还是漏选了主要因素,都会对预测结果带来严重的影响,使其以一个较大的幅度偏离真实值,从而失去了预测的准确性。本文综合考虑的多方面因素,进行了比较深入的调研,然后依据指标选取原则最终选取了9项客户诚信度评价指标,如表1所示:
表1 客户诚信度评价指标
4.2样本采集和处理
从本地一家LED灯具厂采集客户数据样本,使用随机法抽取两组客户数据,分别为诚信客户组65家和非诚信客户组30家。诚信客户组以往业绩良好,无违约前例;非诚信客户组里的企业资信较差,或有违约前例,或因其他理由拖延履行以及中途提出修改合同条款。两组样本数量一共为95家企业数据,构成原始数据样本集,再将其划分为训练样本集和测试样本集。
4.3 SVM模型分析及结果验证
依照前文所述,建立样本集,按照本案例,参数X 的维数为9,Y的值根据客户诚信与否来定,诚信客户为1,非诚信客户为-1。通过大量的实验数据同真实数据的比对,我们可以获得最佳的核函数参数,训练样本同测试样本的结果比对表如下所示:
表2 结果分析表
通过实际数据的验证,可以看出基于SVM算法建立预测模型可以达到很好的准确性,明显高于目前所使用的分类评估模型,这说明SVM具有较高的分类能力,具有更好的泛化能力,可以更好的适应商业场合对客户诚信度评价的需求。
参考文献
[1]吴冲,夏晗. 基于支持向量机集成的电子商务环境下客户信用评估模型研究[J]. 中国管理科学, 2008.10(16)367
[2]魏丹.支持向量机多分类预测技术研究. 硕士学位论文,2008,4
作者简介:薛翔,出生于1975年6月,男,江苏盐城人,本科学历,盐城市盐都区机关事业社会保险中心副主任,电子信息工程师,计算机程序设计。