论文部分内容阅读
近年来,随着网络通信和互联网的逐渐发达和普及,互联网金融行业在国内正在蓬勃兴起,互联网金融贷款也逐渐成为一种趋势。自2007年网络贷款进入中国以来,这种信贷交易模式逐渐发展并得到流行,到目前已经在互联网金融行业中占据重要地位。但与此同时,这种以信用无抵押贷款模式的流行,信用风险也随之而来,所以这就促使贷款平台需要更加严格审核申请用户的信用信息,但是,由于国内信用体系还不够完善,以及针对信用贷款无抵押模式的风险控制研究还不够深入,导致很多贷款平台的逾期客户和坏账率增加,以致于最终面临倒闭的风险。随着大数据技术的成熟,网络贷款行业也逐渐选择通过大数据挖掘技术对用户数据进行深入分析,从中找到能够帮助筛选优质客户的数据规律,除了能够利用业务经验之外,也能够利用数据模型进行科学判断客户资质,从而提高盈利,减少行业损失。本文主要通过Lending Club P2P贷款平台获得原始数据以进行后续模型的搭建,由于数据质量较差,出现格式混乱或者缺失值及异常值,且原始数据中存在非平衡问题,因此在建立数据模型前,需要对原始数据进行预处理,本文通过SMOTE算法进行少数类样本的增加,并对连续性属性和取值较多的离散变量进行特征分箱和再编码,以提高数据质量,最终提升建模效率。除此之外,本文利用逻辑回归模型和随机森林模型分别对样本集进行了预测评估,并利用ROC曲线及混淆矩阵等对模型进行评估对比,得到更为有效的数据模型,从而为贷款平台提供了科学的借鉴和参考。