论文部分内容阅读
随着个人消费信贷的不断发展,信用评分技术逐渐用于信用卡发放、房贷、车贷等消费领域,以便评估信贷申请人在未来违约的可能性。如何科学有效地建立信用评分模型,使金融机构能够快速准确地做出审批决策,是金融业界和学术界的一个焦点。目前,已有众多方法应用到信用评分领域中,但这些研究的数据集通常只包括被接受的客户信息,而占比约九成的被拒绝的客户信息由于缺乏后续信用表现记录被忽视。如果仅使用接受样本的信息来衡量未来总体的特征,会引起样本选择性偏差以及参数估计的有偏和非一致性问题。因此,为了使信用评分模型更有效,不仅需要考虑被接受的客户信息,还需考虑被拒绝的客户信息,进行拒绝推断。
首先,本文对拒绝推断问题、半监督学习、集成学习等理论进行系统地剖析,深入研究在拒绝推断条件下构建信用评分模型的理论基础。其次,针对信用评分领域通常出现的有标记样本占比极少、无标记样本占比大,以及样本正负类别分布不均衡等问题,现有的研究方法缺乏显著的分类效果,并且存在灵活性不足、泛化能力低等局限性。本文通过引入集成学习理论,对半监督学习进行因地制宜的改进,将二者有机结合,提出了基于CDB(Co-Training with Dynamic Bagging,动态套袋协同训练法)算法的信用评分模型。该模型的核心过程在于:①使用动态Bagging生成多个子分类器,降低模型的泛化误差,解决接受样本、拒绝样本和样本总体分布不一致的问题;②引入分类临界值参数划分正负样本,来应对样本类别分布不均衡的问题;③设定最大迭代次数,减少标注错误的不断累积从而避免过拟合。
然后,本文选取8种具有代表性的信用评分分类方法作为参照,基于3个真实信贷数据集进行实证分析发现:在不同数据集和不同拒绝比例下,CDB信用评分模型较8种基准模型能够更加充分地利用拒绝样本的信息,性能上略优于其他有监督、半监督和传统统计方法,具备良好的模型泛化能力和优异的信用评价能力。最后,本文探讨了分类临界值、最大迭代次数、子分类器个数这三个参数对CDB模型性能的影响。发现当分类临界值取0.1,最大迭代次数和子分类器个数取10时,CDB模型可以发挥出最优的性能。
首先,本文对拒绝推断问题、半监督学习、集成学习等理论进行系统地剖析,深入研究在拒绝推断条件下构建信用评分模型的理论基础。其次,针对信用评分领域通常出现的有标记样本占比极少、无标记样本占比大,以及样本正负类别分布不均衡等问题,现有的研究方法缺乏显著的分类效果,并且存在灵活性不足、泛化能力低等局限性。本文通过引入集成学习理论,对半监督学习进行因地制宜的改进,将二者有机结合,提出了基于CDB(Co-Training with Dynamic Bagging,动态套袋协同训练法)算法的信用评分模型。该模型的核心过程在于:①使用动态Bagging生成多个子分类器,降低模型的泛化误差,解决接受样本、拒绝样本和样本总体分布不一致的问题;②引入分类临界值参数划分正负样本,来应对样本类别分布不均衡的问题;③设定最大迭代次数,减少标注错误的不断累积从而避免过拟合。
然后,本文选取8种具有代表性的信用评分分类方法作为参照,基于3个真实信贷数据集进行实证分析发现:在不同数据集和不同拒绝比例下,CDB信用评分模型较8种基准模型能够更加充分地利用拒绝样本的信息,性能上略优于其他有监督、半监督和传统统计方法,具备良好的模型泛化能力和优异的信用评价能力。最后,本文探讨了分类临界值、最大迭代次数、子分类器个数这三个参数对CDB模型性能的影响。发现当分类临界值取0.1,最大迭代次数和子分类器个数取10时,CDB模型可以发挥出最优的性能。