论文部分内容阅读
随着我国最终开放国内金融市场期限的临近,我国商业银行将面临日益激烈的市场竞争。提高信用风险管理水平已经成为非常迫切的问题。然而,我国商业银行的贷款违约管理的现状还不能令人满意,主要表现在过高的不良贷款率和骗贷事件时有发生。除了贷款风险管理体制不完善以外,还有一个重要原因是缺少科学的信用风险管理工具。国外对信用风险模型的研究比较成熟,从上个世纪70年代的Merton模型开始,涌现了大量的研究成果。根据模型的演化过程,可分为二类,结构模型和简约模型。一些著名银行还开发了信用风险内部模型,如CreditMetrics、CreditPortfolioView、CreditRisk+和CreditManager。
然而,这些模型用于我国商业银行会碰到一些实际的困难,如时间序列短,数据质量差等。尤其是存在“信用拟态”现象。拟态是生物学的一个重要概念。某些生物为了有利生存,会模拟其它生物的体态和行为。类似地,违约企业为了获得较高的信用等级,模拟不违约企业的财务特征,欺骗信用评级人员。时间序列短意味着不能使用基于随机过程的信用风险模型,只能构建贷款违约识别模型。信用拟态使某些著名的信用风险变量变得不太显著,增加了违约识别的难度。
为了克服信用拟态带来的不利影响,本文提出了包含数据异常模式诊断功能的贷款违约识别系统框架。它结合统计方法和专家知识诊断数据的异常模式,搜索具有信用拟态嫌疑的样本。统计方法用来发现个体过度偏离整体的数据行为;而专家知识主要用来发现寻机性会计行为。本文还提出了专门用来识别信用拟态的技术,把财务特征和不违约企业相似的违约企业样本判定为信用拟态样本。新发现的数据异常模式被加入到数据异常模式数据库中,不一致的数据行为经过数据清洗得到纠正。
“垃圾进,垃圾出”,数据预处理对于建模的重要性不言而喻。数据预处理包括三个步骤:处理缺失值、处理离群值和数据归一化。常用的处理缺失值的方法有均值替补、回归替补和删除整个记录等,根据情况灵活运用。有一些识别离群值的经验法则。本文推荐基于顺序统计量的检验法则,因为它对于离群值和缺失值比较稳健。数据归一化的方法可分为两类:线性变换和非线性变换。当数据严重偏离正态分布的时候,我们常用非线性的softmax变换。本文给出了一种确定softmax变换参数的方法。
本文详细讨论了常用的特征选择方法,如T检验、线性相关系数、共同信息等,并提出了一种新的三次特征选择技术。在数据没有清洗前,先用决策树的特征选择方法进行第一次特征选择;然后在清洗的同时,再结合专家知识作第二次特征选择;最后利用Logistic回归选出显著的特征。决策树的特征选择方法对于离群值和缺失值很稳健,因此适合作初次选择。专家知识可以发现数据的不一致,选出数据质量比较好且具有重要经济意义的信用风险特征。Logistic回归则从模型拟合的角度选出最显著的特征。本文还重点探讨了目前流行的分类器,如贝叶斯分类器、决策树、神经网络、支持向量机。这些分类器各有优缺点,决策树对缺失值和离群值比较稳健,但分类精度不高。贝叶斯分类器容易计算,但在小样本的情况下,分类效果不够理想。神经网络和支持向量机分类精度高,但需要充分的数据预处理、模型的合理设定以及较多的计算量,而且模型的可解释性比较差。
究竟那一种分类器性能最好,应该根据应用的实际效果而定。为此,本文介绍了关于模型选择的理论和技术。与模型选择的相关的哲学思想有奥卡姆剃刀原理和波普尔的可证伪性理论。奥卡姆剃刀原理偏好简单的模型,而可证伪性理论导致非常实用的交叉验证方法。本文正是采用五折交叉验证方法测试各种分类器的性能。其中,支持向量机、神经网络、Logistic回归的性能最好,判别分析和、朴素贝叶斯分类器次之,决策树的性能最差。分类器的性能差异可以从提取特征信息的能力、解决分类问题的思路、模型复杂性和性能的平衡三个角度进行解释。
支持向量机、神经网络的性能优越源于它们较强的提取特征信息的能力和直接对分类决策边界建模的思路。决策树的性能最差归因于较差的提取特征信息的能力。贝叶斯分类器因为通过估计密度间接建模,而估计密度需要较多的样本,所以小样本的情况下,性能不是十分理想。
实证表明,复杂模型对模型性能的提高非常有限,不同复杂程度的同类模型的性能无显著差异。例如,虽然使用了更多的特征而且多了一个隐含层,但神经网络的性能没有显著优于Logistic回归;判别分析也没有显著优于加入特征独立性假设的朴素贝叶斯分类器。这也印证了奥卡姆剃刀原理。