基于CDB算法的信用评分拒绝推断问题的研究

来源 :对外经济贸易大学 | 被引量 : 0次 | 上传用户:chen2960798
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着个人消费信贷的不断发展,信用评分技术逐渐用于信用卡发放、房贷、车贷等消费领域,以便评估信贷申请人在未来违约的可能性。如何科学有效地建立信用评分模型,使金融机构能够快速准确地做出审批决策,是金融业界和学术界的一个焦点。目前,已有众多方法应用到信用评分领域中,但这些研究的数据集通常只包括被接受的客户信息,而占比约九成的被拒绝的客户信息由于缺乏后续信用表现记录被忽视。如果仅使用接受样本的信息来衡量未来总体的特征,会引起样本选择性偏差以及参数估计的有偏和非一致性问题。因此,为了使信用评分模型更有效,不仅需要考虑被接受的客户信息,还需考虑被拒绝的客户信息,进行拒绝推断。
  首先,本文对拒绝推断问题、半监督学习、集成学习等理论进行系统地剖析,深入研究在拒绝推断条件下构建信用评分模型的理论基础。其次,针对信用评分领域通常出现的有标记样本占比极少、无标记样本占比大,以及样本正负类别分布不均衡等问题,现有的研究方法缺乏显著的分类效果,并且存在灵活性不足、泛化能力低等局限性。本文通过引入集成学习理论,对半监督学习进行因地制宜的改进,将二者有机结合,提出了基于CDB(Co-Training with Dynamic Bagging,动态套袋协同训练法)算法的信用评分模型。该模型的核心过程在于:①使用动态Bagging生成多个子分类器,降低模型的泛化误差,解决接受样本、拒绝样本和样本总体分布不一致的问题;②引入分类临界值参数划分正负样本,来应对样本类别分布不均衡的问题;③设定最大迭代次数,减少标注错误的不断累积从而避免过拟合。
  然后,本文选取8种具有代表性的信用评分分类方法作为参照,基于3个真实信贷数据集进行实证分析发现:在不同数据集和不同拒绝比例下,CDB信用评分模型较8种基准模型能够更加充分地利用拒绝样本的信息,性能上略优于其他有监督、半监督和传统统计方法,具备良好的模型泛化能力和优异的信用评价能力。最后,本文探讨了分类临界值、最大迭代次数、子分类器个数这三个参数对CDB模型性能的影响。发现当分类临界值取0.1,最大迭代次数和子分类器个数取10时,CDB模型可以发挥出最优的性能。
其他文献
学位
学位
学位
This paper investigates the determinants of firm’s performance with evidence of the listed firms in Kenya.I used annual data for the period2013–2018.Various econometric procedures such as Random Effec
学位
This study aims to identify the opportunities and challenges facing the P2P lending industry in Indonesia,with regards to the gaps in the market created by lack of financial access to banks,as well as
学位
Financial development plays one of the most important roles in economic development of each country.This study takes Asian countries as research objects and examines the relationship between financial
学位
为研究“房住不炒”对住房市场交易量的影响和作用渠道。本文先使用包含预期的供求函数推导出:因住房市场供求双方持有住房的成本不同,住房交易量与预期价格呈现同向变动的假设;再使用房价租金比作为预期价格指标推导出证明“房住不炒”政策可以通过影响适应性预期的方式对住房交易量产生影响的方法。本文使用了多元回归分析法和断点回归设计研究了具有代表性的24个城市2014-2018年的住房交易量指数月度数据,通过实证
如今,越来越多的人在网上发表言论,文本数据急剧增加,这些文本信息洪流中包含着大量的情感信息。线上对话可以丰富平台内容,但是也存在着危险,如人身攻击、网络骚扰和欺凌等行为。平台提供商为了平台的运营和发展,必须营造在线对话良好氛围。识别不同文本情感等级,从而可以根据文本的情感评分对发表负面言论的用户进行警告,禁言或封号,对发表正向言论的用户进行奖励等。  现有的文本情感分析方法主要有基于规则的方法和机
学位
互联网的兴起带来了一个数据爆炸、信息爆炸的时代,人们的生活急需要从海量的信息中提取到自己所需的信息,各种不同的推荐系统应运而生。随着数据信息的指数型增长,数据类别的变化、数据的可获取性和数据的多样性都给推荐算法的精准性带来了很大的挑战,传统的协同过滤算法在当下个性化的需求面前,其准确性显得有很大不足。如何更好的利用数据资产对推荐算法进行改进是当下需要被重点思考的课题。  本文基于公开的数据集Mov
学位
分类问题在遗传标记、肿瘤分类、微阵列数据分析、生物信息学和机器学习等领域都有着广泛的应用。随着数据存储能力与计算能力的提高,高维变量的出现给这些领域带来了新的挑战。为了更好的解释高维分类问题,提高分类预测能力,变量筛选和降维起着重要的基础性作用。  在分类建模之前,除了进行主效应的选择,考虑到单个主效应的影响并不足以刻画其与响应变量之间的关系,本文重点进行了交互效应的筛选方法的研究,并创新性地提出
学位