论文部分内容阅读
消费信贷是金融机构面向消费者个人的信贷业务,如住房贷款、汽车贷款和信用卡等。这类业务数量众多,单笔金额相对较小。人工审批耗时费力,银行为了在控制信用风险的前提下提高审批的效率,必须借助信用评分模型来判断哪些申请人将是好客户可以给予审批,哪些将是坏客户应该拒绝他的申请。本文围绕如何创建信用评分模型展开研究。 全文共有七章内容:第一章为引言,介绍了信用评分模型的业务背景、相关问题的研究现状和本文的主要研究内容与创新之处;第二章讨论了信用评分模型的变量选择问题;第三章探讨了信用评分模型的建模方法;第四章讨论了如何针对信用评分模型中的坏客户识别是稀有事件类的识别这一本质特征改进建模方法,提高信用评分模型的预测准确性;第五章研究了信用评分模型的拒绝推断问题;第六章讨论了信用评分模型的评价准则问题;最后一章总结了研究成果并对未来进一步研究做出展望。 第一章介绍了信用评分模型的业务应用价值,介绍了近五六十年来信用评分模型的发展历史,也介绍了相关问题的研究现状,并概述了本文的主要研究内容和创新之处。 第二章讨论了信用评分模型的变量选择问题。信用评分模型的自变量有两种来源,主要来自申请人在申请消费信贷业务时出示的特征信息和申请人在人民银行征信系统中的历史信用信息及其衍生变量。这些信息组成的自变量往往有上百个,其中有显著影响因变量的,也有与因变量无关的。筛选重要变量是信用评分模型的关键环节。本章首先介绍了学术研究领域对变量选择的研究,也介绍了信用评分领域常用的变量选择方法——Ⅳ值和Gini指数,并指出了它们的局限性,即必须首先把连续变量转换成离散变量。在现代信用评分技术中,连续变量离散化不再是必要手段。本章提出了利用判断离散变量与因变量之间关联强度的Cramers V统计量来补充离散变量的筛选方法,同时引入统计理论中变量聚类方法的1-R2 ratio和多重共线性诊断统计量来扩充信用评分模型中连续变量的筛选方法。 第三章探讨了信用评分模型的建模方法。由于建模技术的进一步发展,银行希望用更精确、更多样化的模型来保证预测结果的准确性。本章简要介绍了Logistic回归、决策树、神经网络和支持向量机这四种常用的评分模型。为了克服信用评分模型中自变量存在多重共线性的问题,引入了限制预测值的偏最小二乘回归模型和偏最小二乘Logistic回归模型来创建信用评分模型。偏最小二乘法的核心思想是用自变量的主成分来解释因变量,可以同时解释因变量和自变量的变异,因此在业务逻辑上更加符合信用评分模型的特点。实证研究的结果也表明了,用限制预测值的偏最小二乘回归和偏最小二乘Logistic回归创建信用评分模型具有很好的准确性和稳定性。 第四章讨论了如何针对坏客户识别是稀有事件类识别的本质特征改进建模方法,提高信用评分模型的预测准确性。中国人的消费习惯促使商业银行消费信贷业务的坏客户是稀有事件类,建模样本中好坏客户的分布极其不平衡,是不平衡数据。本章在用极大似然法估计模型参数的前提假设下,从模型残差的方差的角度,讨论了从大众类中识别稀有事件类为什么有难度,并借鉴了机器学习中处理不平衡数据的特殊抽样法和组合算法来探讨建模样本为稀有事件的信用评分模型的改进,并做了实证研究大都获得了理想的效果。同时也证明了必须对用特殊抽样方法创建的模型做预测校正才可以应用于新样本的预测,并给出了经验校正公式。 第五章讨论了信用评分模型的拒绝推断问题。信用评分模型的开发样本来自曾经被批准的申请人,而应用样本是所有的申请人组成的总体。开发样本和应用样本并不是来自同一个总体。本文首先证明了信用评分模型的开发和应用存在样本偏差,需要使用拒绝推断把曾经被拒绝的申请人纳入建模样本中。提出了总体先验校正法和核函数推断法(包括最相似法、加权平均法和Q1加权平均法三种方法)这两类新的拒绝推断方法,并做了相应的实证分析,获得了比较理想的结果。 第六章介绍了信用评分模型中常用的评价准则,用实证分析的结果指出迷信AUC和K-S统计量这两个评价指标可能会有误导,并对局限较大的K-S统计量做了改进。 最后一章对本文的研究做了总结,对未来进一步的研究提出了展望。兼顾风险和收益两个维度的信用评分模型和多分类的信用评分模型是未来值得研究的问题,它们也更有利于消费信贷业务的精细化风险管理。