论文部分内容阅读
一直以来,收益最大化是商业银行追求的目标,然而,风险与收益并存,要获得高收益就必须承受高风险。商业银行在经营过程中会时刻面临信用风险等非系统性风险以及市场风险等系统性风险。世界银行对全球银行业危机的研究表明,导致银行破产的主要原因就是信用风险。
消费信贷在过去50多年取得了巨大发展,很多发达国家的银行零售业务和消费信贷市场份额都超过公司债的50%。但是继2007年爆发的美国次级债危机和紧随其后的全球信用紧缩后,消费信贷才逐渐引起消费者、贷款机构和银行管理部门的足够重视。
20世纪60年代信用卡的诞生及广泛应用极大推动了个人信贷业务的发展,为了应对个人信贷业务的单笔业务资金规模小、业务复杂且数量庞大等特点,以计算机技术为核心、以取代人力为特征的大规模自动化处理方法--信用评分便应运而生。《巴塞尔新资本协议》对银行监管提出了更高要求,要求银行使用内部评级模型来估算监管资本量,提出违约概率、违约损失率等风险指标来度量信用风险。对零售贷款组合而言,信用评分模型便是这些内部评级模型,但为此目的,要对信用评分系统的要求做相应修改,只对客户按风险进行正确排序是远远不够的,因为要根据评分系统预测的违约概率设置监管资本量,这就对账户水平的客户违约概率预测准确性提出了要求和挑战。自2005年以来,中国信用卡进入了几何级数的增长阶段,数据显示:2010年第1季度,信用卡授信总额1.48万亿元、期末应偿信贷总额2485.83亿元,其中,信用卡逾期半年未偿信贷总额88.04亿元。
在这种背景下,本文以消费信贷领域的信用卡产品为研究对象,在现有常用信用评分模型基础上,根据统计学知识进行多方面改进,对信用卡申请人进行评分,并对改进的信用评分模型的性能进行多方面评估和比较。本文的研究遵循以下思路过程:
第一章为导论,介绍本文的研究背景、研究意义,并介绍国内外相关研究现状,概括本文的主要研究内容和本研究的主要贡献;
第二章从个人信用评分的历史背景出发,对信用评分领域用到的基本概念和术语进行梳理,并着重讨论了建立信用评分模型的数据的处理方法:首先对好坏客户的内涵进行界定,其次讨论如何选择和确定建模样本,最后讨论如何选择、分析变量以及如何对变量进行粗分组处理;
第三章确定建立信用评分模型的各种常用方法:统计学方法和非统计学方法,并对各种模型的优缺点进行评价;
第四章讨论信用评分系统性能检验的三个方面:好坏客户判别能力度量统计量、客户分类预测准确性度量统计量和客户违约概率预测校准度量统计量;
第五章考虑对常用评分模型进行改进并进行实证分析:首先对建模特征变量进行分析和粗分组处理并转化成虚拟变量,继而分别用能产生加性评分卡的三种常用方法--Logistic回归、判别分析和线性规划方法建立评分卡,并对评分卡性能度量的三个方面进行对比研究;最后,为了提高信息利用效率,提出常用模型的改进方法:在广义线性模型背景下,对连续变量不设定具体的函数形式,将其以非参数形式进入模型,并和粗分组后的Logistic回归模型建立的评分卡进行性能比较;
第六章在第五章将粗分组后的特征项都转化成虚拟变量的基础上,提出改进方法:为解决大量虚拟变量之间不同程度的共线性问题,在Logistic回归模型前提下引入偏最小二乘法处理虚拟变量之间的多重共线性,建立PLS Logistic回归评分模型并将之与不考虑共线性的经典Logistic回归评分模型进行了5个方面的性能比较;
第七章为全文的结束语,对第二章到第六章的内容和相关结论做了总结和回顾,并指出本文研究的不足之处以及进一步的研究方向。
本文的研究建立在现有文献基础之上,在以下几个方面做了尝试和突破:
一、为提高信息利用效率,对连续特征变量不设定具体的函数形式,将其以非参数形式进入模型,在广义线性模型背景下分别采用spline和LOESS两种光滑方法进行估计。
当前,信用评分领域对连续特征变量的普遍处理方式是将其按观测值大小8等分、10等分或20等分,然后将每个等分当作定序变量进行粗分组处理,这些处理的确能反映出连续变量对违约风险的非线性影响,但在进行分割的过程中会丢失大量信息,不能完全反应该原始变量的影响,为了提高信息利用效率,本研究在广义线性模型背景下,对连续特征变量不设定具体的函数形式,将其以非参数函数形式进入模型,分别采用spline和LOESS两种光滑方法对单变量非参数函数进行估计,这样处理既保留了Logistic回归模型的可解释性,又避免像神经网络模型那样的“黑箱效应”。
二、为增加模型的稳健性,引入偏最小二乘法解决解释变量间的多重共线性,用偏最小二乘成分而非原始解释变量建立评分模型,模型自由度大大降低,模型变得非常简单。
本文建立了PLS Logistic回归评分模型,并将之与不考虑共线性的经典Logistic回归模型进行五个方面的性能比较:虽然评分卡判别能力度量的三个统计量:K-S统计量、AUROC统计量和GINI系数都显示PLS Logistic回归评分模型对好坏客户的判别能力不及经典Logistic回归评分模型,但和经典Logistic回归评分模型相比,PLS Logistic回归评分模型的AIC和SC统计量值都较小,说明PLS Logistic回归评分模型的总体拟合优度有所改善;对好坏客户的分类预测上,PLS Logistic回归模型的总误判率和第Ⅱ类误判率都有所降低,说明PLS Logistic回归评分模型具有更好的好坏客户分类预测能力,预测精度更高,尤其是第Ⅱ类误判率较低,这对银行提高利润具有直接意义;对客户违约概率校准度量的统计检验显示,PLS Logistic回归评分模型能够非常准确地预测客户的实际违约概率;最为重要的是,PLS Logistic回归评分模型的自由度大大降低,模型变得非常简单,因此模型的稳健性大大增强。
信用评分领域可用的特征变量很多,将偏最小二乘方法引入到该领域,就我们的数据集而言,是一个非常成功的尝试:通过对偏最小二乘成分的提取,不仅可以解决解释变量之间的多重共线性问题,而且使模型变得异常简单且稳健。对于连续特征变量而言,可以在不损失信息的前提下考虑基于样条变换的偏最小二乘Logistic回归模型或者基于核函数变换的偏最小二乘Logistic回归模型,这可为商业银行等金融机构建立评分卡提供新的思路和方向。
三、在《巴塞尔新资本协议》精神指引下,强调和重视各种评分模型对客户违约概率预测准确性的校准度量。
《巴塞尔新资本协议》要求商业银行使用内部评级模型来管理信用风险,对于零售贷款组合的信用评分模型而言,只对客户按风险进行正确排序是远远不够的,还需要尽可能准确地预测账户水平的客户违约概率。因此,对于各种改进的评分模型,在模型性能评估方面,本研究尤其重视和强调对客户违约概率预测准确性的校准度量。