论文部分内容阅读
最小二乘支持向量机(LS-SVM)是基于统计学习理论的一种非线性数据处理方法。作为传统支持向量机(SVM)的一种改进算法,最小二乘支持向量机不仅具有SVM的优良性能,而且比SVM更易于训练。众多研究表明,最小二乘支持向量机往往在预测精度方面优于复杂结构的神经网络模型。因此,无论是在现代统计领域还是在人工智能领域,最小二乘支持向量机都受到人们的广泛关注,并广泛应用于解决分类和回归问题。
最小二乘支持向量机是核方法思想的具体实现。该模型通过非线性变换把输入映射到一个高维特征空间中,然后再在高维特征空间中构建正则化的线性回归,由此给出特征空间中的预测或判别方程。对应于原始输入空间该预测或判别方程则是仅依赖于某个核函数的非线性方程。模型的预测效果取决于核函数的选择,以及核参数与正则化参数的选择。因此,无论在该模型的理论研究还是实际应用中,核参数和正则化参数的选择都对支持向量机的性能有着重要意义。恰当地选择这些参数可有效控制特征空间的维数,从而提高模型的预测性能,避免维数灾难问题。尽管这一问题的研究在实际应用中有着极为重要的意义,但现行的研究结果却存在诸多的不足:一是反映在计算效率不高,二是有关双参数同时选择问题的研究工作较少。
本文关注最小二乘支持向量机的正则化参数与核参数的选择问题。首先我们讨论了在核参数选定为某个经验值的前提下,LS-SVM模型中正则化参数的选择问题,根据简化了的算法推导得到了基于GCV准则和Newton-Raohson迭代的快速算法。模拟试验表明该快速算法在稳定性以及模型预测精度上与Fast Bootstrap相当,而在计算效率上却是后者的数千倍。这一快速算法大大提高了最小二乘支持向量机的实际应用价值。在此基础上,本文进一步讨论了最小二乘支持向量机的正则化参数与核参数的同时选择问题。与单个(正则化)参数的算法类似,我们根据简化了的算法推导得到了基于GCV准则和Newton-Raphson迭代的快速算法。数值模拟结果表明,此算法不仅具有计算效率方面的巨大优势,而且选择出的模型往往具有更高的预测精度。
作为本文提出的方法的一个应用,本文关注商业银行的个人信用风险评估问题。近几年,我国消费信贷产业蓬勃发展,信用经济欣欣向荣。随着消费信贷规模的扩大,如何在商业银行内部开发一种合理有效的个人信用评估模型,客观评估客户的个人信用风险状况,提高信用评估准确率已经成为信贷行业的一个重要问题,因为信用评估准确率哪怕只有很少的提高都会给信贷机构带来很大的利益收获。这也成为商业银行实现贷前风险控制、进一步促进消费信贷发展的关键。然而个人信用评估是一个较为复杂的过程,涉及到各方面的因素,众多研究表明各影响因素与衡量结果之间并不完全是线性关系。
鉴于以上原因,我们研究了最小二乘支持向量机在个人信用风险评估中的应用。通过一个公开的德国信用卡数据和一个我国商业银行信用卡数据,本文对最小二乘支持向量机,Fisher线性判别分析,Logistic回归以及半参数广义可加模型的判别效率进行了实证比较分析。分析结果表明最小二乘支持向量机具有很好的判别预测能力,可为信用决策者进行决策提供重要的参考依据。
文章结构如下:第一章介绍了论文选题的理论意义与实用价值、国内外研究个人信用评估与LS-SVM模型选择的主要文献综述、论文的研究思路和方法,同时指出论文的创新与不足之处。第二章对与本文研究有关的一些统计学习理论和信用分类的一些模型方法进行介绍,并对这些模型方法作了比较研究。本文的一个重点是讨论LS-SVM模型的正则化参数与核参数的选择问题。第三章给出了在核参数固定情形下,LS-SVM模型中基于GCV准则的正则化参数选择的Newton-Raphson算法的理论推导与模拟分析。作为该方法的一个扩展,本文第四章讨论了LS-SVM模型中基于GCV准则的核参数与正则化参数同时选择的算法的理论推导与模拟分析。为了验证本文所给出的LS-SVM模型选择新方法的实际分类效果,本文在第五章选择了国外一个公开的信用数据集,在第六章,利用我国商业银行的一个信用卡申请的实际数据做了实证分析和研究,并把分类结果与线性判别分析、Logistic回归、半参数广义可加Logistic回归的分类结果作比较分析。最后一章是本文的总结、建议及研究展望。