论文部分内容阅读
诺奖获得者穆罕默德尤努斯开创了个人对个人的无抵押小额贷款模式,之后这种贷款模式在现如今的互联网时代中茁壮成长,也就是如今的P2P网贷。P2P网贷是互联网金融重要的组成部分,其填补了传统借贷中小额贷款的部分,国家鼓励金融创新,我们也需要良性发展的P2P网贷平台来提高我们闲散资金的利用率。从我们国家P2P网贷行业发展历史来看,不加约束的P2P网贷行业必然会成为金融诈骗的土壤,而施以严格的监管则是断了靠高利率来吸引投资者的P2P网贷平台的成长之路,所以需要良性发展的P2P网贷平台,而良性发展的平台必然需要一个智能控制风险的模型,本文旨在找出最合适的处理方式配合最合适的机器学习算法来搭建出最合适的风险控制模型。基于此背景,本文选择美国P2P网贷平台Lending Club2007年至2018年的贷款数据,该平台是全球最大的P2P网贷平台,并且数据公开透明可以通过官网下载。获得数据之后先进行探索性的数据分析,在探索性分析的基础上再进行一系列的数据清洗,单独抽出其中的地址数据,对比不加入地址数据和以不同的编码方式加入地址数据对不同模型泛化能力的影响,并分析造成这些影响的原因,用到的编码方式包括无监督的独热编码、哑变量和标签编码,有监督的平均数编码和根据本文数据改进的平均数编码。使用的模型为微软亚洲研究院于2016年推出的LightGBM,并和传统的支持向量机、随机森林进行对比,选用AUC指标评价模型的泛化能力。结果表明多数情况下有监督的编码方式会比无监督的编码方式对模型泛化能力提升更大,但是也不能迷信某一种方法,实际上很难找出一种通用的方法在所有模型上都表现的很好,不过对于本文的数据集来说最优的组合是通过改进平均数编码方法编码地址数据之后用LightGBM框架进行建模。同样也很难找到一种最不好的编码方式,无序的类别特征即使是通过标签编码这种看似错误的编码方式,只要配合对数值不敏感的树模型也能有不错的效果。从结构上来说,本文先介绍了研究背景和意义,对学界在P2P网贷平台的研究进行了综述,之后对P2P网贷和本文使用到的机器学习算法进行了理论概述,介绍了本文使用的数据来源进行了探索性分析,在探索性分析的基础上再进行数据清洗,最后进行实验并对比LightGBM和另外两种机器学习方法的效果,得出结论。