基于文本挖掘的借款描述信息与违约行为的关系研究

来源 :成都理工大学 | 被引量 : 0次 | 上传用户:ljh163com
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网金融新兴借贷模式——P2P网络借贷,由于其参与门槛低、交易手续方便以及无需担保抵押等优点,受到个人以及中小企业的青睐,并在我国得到快速发展。但在快速发展的同时,行业竞争愈发激烈加上整个行业监管细则暂时性缺失,涌现出大批问题平台,其中问题平台产生的主要原因之一是行业存在较高的借款人违约风险。借款人违约风险发生主要是受到借贷双方信息不对称性影响,为缓解借贷双方信息不对称性,本文将从非结构化信息入手,对借款描述展开研究。借款描述是P2P网络借贷中主要语言信息,是借款人补充信息的唯一途径,包含了借款人收入、借款目的、还款意愿等信息。本文将重点研究从借款描述中挖掘的文本变量与借款人违约行为的关系。本文以人人贷交易数据作为研究数据,主要从文本的文字特征、内容特征、情感特征三方面对借款描述进行挖掘,以LDA主题模型和文本情感分析技术为技术手段。其中通过LDA主题模型从借款描述中挖掘借款人本次借款目的,通过文本情感分析技术计算本次借款急迫程度。本文采用二元逻辑回归模型研究了挖掘出的文本变量对借款人违约行为的影响作用。为探讨文本变量对违约风险预测结果的提升作用以及评估变量重要程度,进一步采用了随机森林集成学习算法建立了预测模型。实证结果表明:(1)通过二元逻辑回归结果表明,文本变量对于借款人违约具有一定的预示作用。文本长度与借款人违约概率具有显著负相关关系;其次借款目的同样与借款人违约概率具有显著关系,不同的借款目的,具有不同的违约风险,其中用于“购车借款”的风险最高,其次是“投资创业”。(2)还款能力信息、还款意愿信息补充变量以及借款急迫度变量均未通过显著性检验,因此认为以上变量均对借款人违约行为不具有预示作用。(3)通过随机森林分类模型结果得知,添加文本变量后,模型精度得到2.3%的提升,其中伪阴性率(将高风险借款人判断为低风险的概率)降低近3%,文本变量能有效提升预测模型准确性。(4)通过对变量进行重要性评估,得出文本变量相对于借款人的人口属性(性别、年龄、学历等)具有更好的分类预测作用,其中文本长度特征重要性仅次于信用评级。综上所述,从借款描述中挖掘的文本变量,在识别借款人违约风险上显示出了较大的作用。以上研究结果有助于提升平台以及出借人识别借款人违约风险的能力,减小违约风险的发生,同时丰富了借款描述在P2P网络借贷领域的研究。
其他文献
近年来,旅游业在扩大内需、促进就业等方面发挥越来越重要作用,成为拉动国民经济快速增长的重要方面。而旅游业则是湖南省张家界市经济发展的支柱性行业,并且作用越来越重要,
近年来,中国制造业面临着越来越大的竞争压力,印刷业作为历史较为悠久的行业,更是在国内外市场环境愈加复杂、原材料成本和人工成本的不断上升、客户对产品质量呈现多样化需求等阻力下艰难前行。在这种大环境下,企业如何实现质量的突破,提供更好的生产,成为了印刷企业迫在眉睫的大事。Y公司近年来同样受到了大环境下竞争压力的冲击,因此,实施精益六西格玛就成为了提高质量,降低不良品率的一个法宝。本文对精益六西格玛的方
党的十九大报告中首次提出实施乡村振兴战略,这为新时代“三农”工作开展提供了指导思想。农民增收是解决“三农”问题的重要核心,农民增收直接关系到“三农”发展、乡村振兴和社会公平等多方面。影响农民收入的因素很多,其中最重要的是农村金融发展水平。作为我国经济强省和农业大省,江苏是国内推进农村金融体系改革的一个试点省。江苏省农村金融发展对农民收入增长有何影响,如何进一步促进江苏农村金融发展的水平仍需进一步探
学位
目前,我国正处于经济高速发展,科学技术不断进步的时代,科技创新能力已经成为展现我国综合实力的重要内容,国家鼓励各行各业努力投身于研发活动当中,提高公司自身实力的同时,也为国家科技发展做出了贡献。在加大研发投入的同时,也要注重研发支出会计信息披露的质量,对于制药行业来讲,研发能力的强弱可以体现一个公司可持续发展能力的强弱,良好的研发支出会计信息披露能够让投资者和社会了解到公司的研发状况,让投资者更好
显著目标检测研究的是根据人类的视觉注意机制,从场景中迅速检测出吸引人眼球的区域乃至整个物体。当前,显著目标检测成为一种可行的预处理技术被广泛应用在计算机视觉领域的
目的:本研究目的是研究中医气功八段锦对高血压患者血压变化的影响观察,确定八段锦气功是否对高血压患者有一定的调整作用。方法:将符合标准的60例高血压患者,半随机平均分为两组,每组30例,分别为气功练功组,空白对照组。气功练功组,通过互联网连接的远程教育与监督下进行操作与练功,完全学习并练习了八段锦气功,练功时间共30天,同时记录与观察患者的血压变化情况,记录练习前后的收缩压和舒张压。共由3个老师进行
多模态媒体数据是指从多个方面描述一个场景或一个事物中所包含的信息,包括文本、图像、视频、音频等多种媒体形式,每一种形式即为一种模态。在互联网飞速发展的大浪潮下,信
随着社会的进步和经济的发展,人们的生活水平不断提高。在消费者需求逐渐多元化和个性化的今天,在互联网与信息化技术蓬勃发展的背景下,传统的营销模式及策略愈发显得不够满
近几年,我国生猪产业快速发展,生猪现货市场中生猪年产量、年存出栏量、以及年进出口量均居全球首位,规模庞大。2018年8月,非洲猪瘟大范围爆发,我国生猪市场受到了严重的影响。到目前为止,我国依然受非洲猪瘟的影响,生猪价格持续剧烈波动,现货市场情况越来越复杂,生猪产业所面临的风险加剧。猪肉是我国居民的传统肉食,在我国食品结构中占有重要地位;生猪产业作为我国的重要基础产业之一,既能够解决农民的就业与收入
目的比较经过长途运输的郊区采血点采集的全血与未经长途运输的市区采血点采集的全血分离制备后的溶血率。方法2012年10月~2013年9月来自郊区采血点和市区采血点的全血,由市
会议