论文部分内容阅读
摘 要:信用评估是风险管理的重要手段,大数据时代的来临为信用评估领域带来了新机遇、新方向,本文将结合社交网络数据探索一种社交网络信用评估模型,根据用户所在社会关系关系进行评估打分。
关键词:信用评级 社交网络
一、引言
信用在市場经济中扮演着重要的角色,是市场风险评估、资源配置的基础,是消费金融的本质。我国《社会信用体系建设规划纲要(2014- 2020年)》和《关于做好个人征信业务准备工作的通知》的颁布,迎来了个人信用行业的黄金时代,用户可以依据信用获得机会、形成社会关系或达成信用交易,对社会资源重新配置。
然而传统的征信体系存在覆盖范围小、更新不及时、数据库大等问题,制约着个人征信的建设。进入大数据时代,飞速增长的信息量,便捷的信息来源,降低了获取和加工成本,其规模性、多样性、高速性和低价值性为资信评估行业迎来了新机遇。不仅可以依据个人信息数据(如身份证、房屋产权证等)、现金流等财务数据进行信用评估,还可以通过庞大的网络碎片数据,如网络行为、IP地址、社会关系等半结构化、非结构化等碎片数据对缺少信用记录或无信贷记录的消费者进行信贷评价,形成对个人、企业及社会团体的信用评价。其中社交信息和行为数据信息逐步受到关注,由于社交网络数据中蕴含了丰富的关系数据,个体之间的接触、联络、关联、群体依附和聚会等方面信息,可用于分析人与人的行为方式和所处环境,有利于判断个人的社会关系和个人特征等。
然而繁杂互联网数据多为半结构化、非结构化数据,怎样进行数据分享、保护隐私、构造模型成为大数据征信的难点,国外研究机构已经将社交网络数据应用于信用评级系统,而我国基于社交网络数据征信方面还处于初级阶段,征信评级体系还需进一步完善。
二、社交网络
人与人之间的社交关系就像一张蜘蛛网,每一个人会与周围邻居、同事、朋友、家人有远近亲疏的联系,如何描述这种复杂的现实社会关系,本文采用了一种社交网络结构,将人作为节点,人与人之间的关系可以用节点之间的连线(或连边)来表示,其边的长短表示人与人关系的亲疏,这样的社交网络结构有效的描述了现实社会的社交关系,表现出“小世界”、“无标度”、“同配性”、“社区性”现象。社交网络的“小世界”现象,使得人与人之间的去中心化搜索更加容易。“无标度”特性,使得信息可以更快速的传播,随机删除节点也不影响网络的连通性。“同配性”有助于理解人与人之间的交友方式,通常相似的用户会容易交朋友,聚集在一起。“社区”性有助于人们认识其所处的环境,同一个人可能加入多个社区,所以往往存在重叠社区,社区之间的人(节点);连接会比较紧密,而社区之间的联系较为松散。由于社交网络存在“小世界”、“无标度”、“同配性”、“社区性”现象,多年来研究者尝试多种方法和技术构造类似现实的社交网络结构模型,都存在一定的局限性,实现的结果要么不稳定要么不能应用于大规模网络数据,因此基于社交网络数据来构建社交网络关系结构的方法还出在研究阶段。
三、信用评级模型研究方法
1.常用的建模方法。目前,国内外个人信用风险评估模型研究方法主要有Logistic回归模型、支持向量、神经网络、决策树等机器学习方法。传统金融机构对客户进行信用风险分析时主要采用模型Logistic回归模型进行评估,其最大的特点是模型的可解释性强、稳健性较好。Engelmann等(2003)采用中小企业数据,对比“Z-score”模型和 Logistic回归模型的预测效果,实证结果表明Logistic回归模型具有非常明显的优势。支持向量机模型也是信用评级模型常用的方法,在处理高纬度、非线性和小样本等方面的模式识别中优势较为明显。吴冲等(2009)在模糊积分支持向量机集成方法的基础上,建立了具有较高分类精度的信用风险评估模型,并成功应用于商业银行。A. Ghodselahi(2011)研究人工智能算法预测信用风险,采用德国的一个数据集,预测结果显示SVM模型预测更精准,但是算法复杂度更高,解释性不好。Dutta等(1988)将经网络模型引入到债券信用评级领域,其较少的变量约束条件和较好的预测效果,逐渐被引用到信用评级领域研究中。章忠志等(2003)建立的审计网络模型,其判别错误率低于10%以下。决策树模型被广泛应用于各种金融和经济领域,如入侵检测、信用卡欺诈检测等方面。Mingfeng-Lin和Nagpurnanan R.(2013)使用Propsper.com的数据建立决策树模型,分析P2P在线借贷市场,研究发现借款人的线上朋友能够作为信用评级的一个指标。王磊等(2014)通过分析可适用于小企业主信用评估的12种数据挖掘模型,得出基于决策树的组合方法表现良好决策树法简单直观,但其统计不稳定性比较难以解决。根据社交网络数据的动态复杂性、重叠性、碎片性等问题,传统的信用评级模型并不能有效的预测评级,阻碍了社交数据在大数据征信方面的应用研究。本文将基于机器学习方法,研究一种随机生成模型评级预测方法,探究用户社交网络拓扑结构,对信用评分的影响性和准确性。
2.随机生成模型。随机生成模型是一种通过统计推断得到的模型,不考虑网络中具体节点和边的生成过程,而是假定网络的观测数据是由一个潜在的概率统计过程生成,然后通过统计推断得到模型的参数,还原其原本的结构,将一个复杂的机制简化为几个基本的概率步骤。本文基于这种随机生成模型来构造社交网络结构,考虑到网络连通性及用户节点在属性和聚集特性上所表现的“同质性” 这3个结构特征,为每个用户分配一个在多维欧式空间中的“社会定位”(Social Position)。按照“同质性”特征,用户通常会与自己相似的用户交朋友,聚集在同一个“社会定位”中,而相异的用户的“社会定位”相距较远。根据这些特征,本文假设任意一对具有“社会定位”zi和zj的用户i和j之间存在链路的概率是相互独立的,那么可以由此得到:
其中 yi,j 表示用户i与用户j之间是否存在连接,X={xi,j}表示用户i与用户j之间的结构特征向量,β代表所有待估参数。若假设yi,j依赖于其节点对之间的欧氏距离,则有:
其中log-odds(A)=log[P(A)/{1-P(A)}] 通过将网络连通性表示成任意一对用户间连接的存在性,该式解释了模型中对于网络连通性与用户“社会定位”的欧氏距离和特征向量X之间的回归关系假设。而对于节点聚集现象的描述则是通过假设“社会定位”zi是从有限个均值不同的多元正太分布中抽得的:
整个网络的联合概率分布可以表示为: P(Y, Z, X,β)=P(Y|Z, X, β)P(Z)
3.信用评级模型。基于随机生成模型建立信用评级分析模型,可以采用机器学习的方法建立评级模型。其中随机森林算法是对风险进行分类,将影响信贷信用风险的各项指标值作为随机森林模型的输入向量,经由随机森林模型测算后得到模型的输出,即被评估的个人信用风险类别。基于随机森林算法的信用风险评估模型步骤主要如下:
(1)数据准备,生成随机向量序列θi(i=1, ……,k)。
(2)随机构建子样本集。采用Bootstrap重抽样方式从样本集D中抽取k个子样本集,记做Di(i=1, ……,k)。
(3)建立信用评价模型。对Di(i=1,……,k)分别建立决策树模型:{h(X,θi),i = 1,2,3…K}。其中,X是信用风险评估指标体系中各指标值组成的自变量矩阵。
(4)训练。进行k轮训练,随后得到分类模型序列:
{h1(X), h2(X)……hi(X)}
(5)评估结果。
四、结语
根据上文能够发现社交网络数据能够有效的反映社交关系、个人特征等信息,对提高信用评级有效性、降低信贷违约风险能力具有现实意义。然而由于用户信息的隐私性、社交关系的动态复杂性、重叠性、碎片性等问题,对构造社交网络结构评价用户信用方面还存在很多问题需要解决,制约了社交数据在大数据征信方面的应用。本文尝试构造随机生成模型和随机森林算法建立信用评级模型,利用社交网络数据对用户信用进行评级,队社交网络信用评级模型进行一些尝试,未来可以进一步验证和完善。
关键词:信用评级 社交网络
一、引言
信用在市場经济中扮演着重要的角色,是市场风险评估、资源配置的基础,是消费金融的本质。我国《社会信用体系建设规划纲要(2014- 2020年)》和《关于做好个人征信业务准备工作的通知》的颁布,迎来了个人信用行业的黄金时代,用户可以依据信用获得机会、形成社会关系或达成信用交易,对社会资源重新配置。
然而传统的征信体系存在覆盖范围小、更新不及时、数据库大等问题,制约着个人征信的建设。进入大数据时代,飞速增长的信息量,便捷的信息来源,降低了获取和加工成本,其规模性、多样性、高速性和低价值性为资信评估行业迎来了新机遇。不仅可以依据个人信息数据(如身份证、房屋产权证等)、现金流等财务数据进行信用评估,还可以通过庞大的网络碎片数据,如网络行为、IP地址、社会关系等半结构化、非结构化等碎片数据对缺少信用记录或无信贷记录的消费者进行信贷评价,形成对个人、企业及社会团体的信用评价。其中社交信息和行为数据信息逐步受到关注,由于社交网络数据中蕴含了丰富的关系数据,个体之间的接触、联络、关联、群体依附和聚会等方面信息,可用于分析人与人的行为方式和所处环境,有利于判断个人的社会关系和个人特征等。
然而繁杂互联网数据多为半结构化、非结构化数据,怎样进行数据分享、保护隐私、构造模型成为大数据征信的难点,国外研究机构已经将社交网络数据应用于信用评级系统,而我国基于社交网络数据征信方面还处于初级阶段,征信评级体系还需进一步完善。
二、社交网络
人与人之间的社交关系就像一张蜘蛛网,每一个人会与周围邻居、同事、朋友、家人有远近亲疏的联系,如何描述这种复杂的现实社会关系,本文采用了一种社交网络结构,将人作为节点,人与人之间的关系可以用节点之间的连线(或连边)来表示,其边的长短表示人与人关系的亲疏,这样的社交网络结构有效的描述了现实社会的社交关系,表现出“小世界”、“无标度”、“同配性”、“社区性”现象。社交网络的“小世界”现象,使得人与人之间的去中心化搜索更加容易。“无标度”特性,使得信息可以更快速的传播,随机删除节点也不影响网络的连通性。“同配性”有助于理解人与人之间的交友方式,通常相似的用户会容易交朋友,聚集在一起。“社区”性有助于人们认识其所处的环境,同一个人可能加入多个社区,所以往往存在重叠社区,社区之间的人(节点);连接会比较紧密,而社区之间的联系较为松散。由于社交网络存在“小世界”、“无标度”、“同配性”、“社区性”现象,多年来研究者尝试多种方法和技术构造类似现实的社交网络结构模型,都存在一定的局限性,实现的结果要么不稳定要么不能应用于大规模网络数据,因此基于社交网络数据来构建社交网络关系结构的方法还出在研究阶段。
三、信用评级模型研究方法
1.常用的建模方法。目前,国内外个人信用风险评估模型研究方法主要有Logistic回归模型、支持向量、神经网络、决策树等机器学习方法。传统金融机构对客户进行信用风险分析时主要采用模型Logistic回归模型进行评估,其最大的特点是模型的可解释性强、稳健性较好。Engelmann等(2003)采用中小企业数据,对比“Z-score”模型和 Logistic回归模型的预测效果,实证结果表明Logistic回归模型具有非常明显的优势。支持向量机模型也是信用评级模型常用的方法,在处理高纬度、非线性和小样本等方面的模式识别中优势较为明显。吴冲等(2009)在模糊积分支持向量机集成方法的基础上,建立了具有较高分类精度的信用风险评估模型,并成功应用于商业银行。A. Ghodselahi(2011)研究人工智能算法预测信用风险,采用德国的一个数据集,预测结果显示SVM模型预测更精准,但是算法复杂度更高,解释性不好。Dutta等(1988)将经网络模型引入到债券信用评级领域,其较少的变量约束条件和较好的预测效果,逐渐被引用到信用评级领域研究中。章忠志等(2003)建立的审计网络模型,其判别错误率低于10%以下。决策树模型被广泛应用于各种金融和经济领域,如入侵检测、信用卡欺诈检测等方面。Mingfeng-Lin和Nagpurnanan R.(2013)使用Propsper.com的数据建立决策树模型,分析P2P在线借贷市场,研究发现借款人的线上朋友能够作为信用评级的一个指标。王磊等(2014)通过分析可适用于小企业主信用评估的12种数据挖掘模型,得出基于决策树的组合方法表现良好决策树法简单直观,但其统计不稳定性比较难以解决。根据社交网络数据的动态复杂性、重叠性、碎片性等问题,传统的信用评级模型并不能有效的预测评级,阻碍了社交数据在大数据征信方面的应用研究。本文将基于机器学习方法,研究一种随机生成模型评级预测方法,探究用户社交网络拓扑结构,对信用评分的影响性和准确性。
2.随机生成模型。随机生成模型是一种通过统计推断得到的模型,不考虑网络中具体节点和边的生成过程,而是假定网络的观测数据是由一个潜在的概率统计过程生成,然后通过统计推断得到模型的参数,还原其原本的结构,将一个复杂的机制简化为几个基本的概率步骤。本文基于这种随机生成模型来构造社交网络结构,考虑到网络连通性及用户节点在属性和聚集特性上所表现的“同质性” 这3个结构特征,为每个用户分配一个在多维欧式空间中的“社会定位”(Social Position)。按照“同质性”特征,用户通常会与自己相似的用户交朋友,聚集在同一个“社会定位”中,而相异的用户的“社会定位”相距较远。根据这些特征,本文假设任意一对具有“社会定位”zi和zj的用户i和j之间存在链路的概率是相互独立的,那么可以由此得到:
其中 yi,j 表示用户i与用户j之间是否存在连接,X={xi,j}表示用户i与用户j之间的结构特征向量,β代表所有待估参数。若假设yi,j依赖于其节点对之间的欧氏距离,则有:
其中log-odds(A)=log[P(A)/{1-P(A)}] 通过将网络连通性表示成任意一对用户间连接的存在性,该式解释了模型中对于网络连通性与用户“社会定位”的欧氏距离和特征向量X之间的回归关系假设。而对于节点聚集现象的描述则是通过假设“社会定位”zi是从有限个均值不同的多元正太分布中抽得的:
整个网络的联合概率分布可以表示为: P(Y, Z, X,β)=P(Y|Z, X, β)P(Z)
3.信用评级模型。基于随机生成模型建立信用评级分析模型,可以采用机器学习的方法建立评级模型。其中随机森林算法是对风险进行分类,将影响信贷信用风险的各项指标值作为随机森林模型的输入向量,经由随机森林模型测算后得到模型的输出,即被评估的个人信用风险类别。基于随机森林算法的信用风险评估模型步骤主要如下:
(1)数据准备,生成随机向量序列θi(i=1, ……,k)。
(2)随机构建子样本集。采用Bootstrap重抽样方式从样本集D中抽取k个子样本集,记做Di(i=1, ……,k)。
(3)建立信用评价模型。对Di(i=1,……,k)分别建立决策树模型:{h(X,θi),i = 1,2,3…K}。其中,X是信用风险评估指标体系中各指标值组成的自变量矩阵。
(4)训练。进行k轮训练,随后得到分类模型序列:
{h1(X), h2(X)……hi(X)}
(5)评估结果。
四、结语
根据上文能够发现社交网络数据能够有效的反映社交关系、个人特征等信息,对提高信用评级有效性、降低信贷违约风险能力具有现实意义。然而由于用户信息的隐私性、社交关系的动态复杂性、重叠性、碎片性等问题,对构造社交网络结构评价用户信用方面还存在很多问题需要解决,制约了社交数据在大数据征信方面的应用。本文尝试构造随机生成模型和随机森林算法建立信用评级模型,利用社交网络数据对用户信用进行评级,队社交网络信用评级模型进行一些尝试,未来可以进一步验证和完善。