基于大数据分析的金融反欺诈建模方法研究

来源 :科学与财富 | 被引量 : 0次 | 上传用户:sunhuai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:承认混杂性,追求效率以及探索相关关系是大数据的核心。大数据分析的实质是依据策略划分数据、建立模型然后评估模型并持续优化。文章浅析了互联网大数据的特点和IT架构;以互联网大数据的建模分析方法和模型特征为基础,重点解析了大数据征信模型的反欺诈应用,并给出大数据准备的优化方向。笔者最后依据大数据行业岗位特点,针对高职教育提出了学生的培养路径。
  关键词:大数据建模;数据准备;反欺诈模型;数据优化;培养路径
  一、引言
  21世纪是数字经济时代,数据成为经济资产带动新兴商业模式和投资机会。基于大数据的建模分析和应用无处不在,比如春节客流量分析,客户画像和行为特征分析等。从数据使用角度来看大数据主要采用数据均参与的全量数据建模方法,并非指数据集合的巨大。但当前移动互联网社交软件、电子商务等海量应用已经把数据资产的体量提升到PB(1024TB)级,其数据组合也已呈现非结构和多样化态势。
  本文梳理了大数据与普通数据的异同,解析数据的采集与存储使用的行业IT解决方案;在此基础上进一步深入研究基于大数据的模型特征;以互联网金融为主线,在业务策略模型、贷前风险评估和反欺诈评分方面,立足实践深入浅出归纳总结基于神经网络的金融反欺诈模型的优势。
  二、大数据特征与IT架构
  大数据分析建模的前提是数据准备,互联网金融反欺诈数据关注时间跨度和数据粒度,时间跨度越长得出相关性预测越准确,而数据的粒度和具体业务、数据采集和IT处理有关。互联网金融领域反欺诈数据的准备有以下特点:
  1、数据量大,特别是移动互联网产业兴起后的各种应用app产生的海量登录数据,注册信息,位置信息,运动轨迹,页面点击数据和会话聊天等数据。
  2、数据类型多,有文本数据,有视频/音频数据,有文件数据,有二进制数据,也有结构化的数据如XML文档等。整体呈现异构化,在某些领域又存在标准的结构化数据。
  3、数据维度杂,比如客户维度的社交圈子,通话视频,购买能力,偿还能力和工作稳定度等。也有平台维度的信息和相关浏览点击和行为轨迹,也可从互联网黑名单,客户特征画像等维度分析。
  4、数据敏感性和公开性交织,从信息安全和数据敏感角度,又有数据保密、公开使用和授权使用等法律法规要求。
  Hadoop是Google公司Apache基金会所开发的分布式系统基础架构,其应用范围非常广泛。例如Yahoo使用4000个节点的Hadoop集群支持广告系统和搜索;百度用Hadoop处理每周200TB的数据;中国移动研究院基于Hadoop开发了“大云”(BigCloud)系统;金融反欺诈方面的应用主要是金融服务或政府机构利用Hadoop来存储客户金融属性数据,包括一些非结构化的数据来发现客户的异常活动,拒绝欺诈行为。
  三、大数据建模方法及模型特征
  大数据建模首先需要确定业务模型,业务模型指的是针对某个业务场景定义,用于解决问题的规则和流程,核心是场景化的应用。比如电商网站会有销售预测模型、商品关联模型等;媒体和自媒体应用会建立读者关注度模型。互联网大数据分析是在业务模型基础上实现数据建模,主要步骤是1)选择或定义模型;2)训练模型;3)评估模型;4)应用模型;5)优化模型。其中训练和评估模型采用不同的数据集合,以免过度优化参数。
  互联网大数据分析的典型模型有回归模型,分类模型,聚类模型,关联模型和归因模型等。模型有符合其业务和数据的特点,如可采用决策树算法来对客户分类,并在关键流失节点上加运营策略来减少流失;关联关系是互联网海量数据的天然应用体现,关联学习通过寻找数据变量之间的规则,对多种数据的关系进行挖掘。典型案例是“啤酒和尿布”的捆绑销售。
  聚类是电商运营的重要分析模型,可采用K-means聚类模型快速分群,电商网站可以根据用户的购买行为将客户分为“年轻白领女性”、“家有小孩”、“单身青年”等类型,然后依据不同的用户画像发起营销。
  客户转换率和相关数据追踪是互联网APP和会员系统类基本应用,归因的漏斗分析是一套流程式步骤,比如直播用户从激活APP开始到花费,漏斗能够展现出各个阶段的转化率,通过漏斗各环节相关数据的比较,能够直观地发现问题所在并找到优化方向。
  四、基于互联网金融的征信反欺诈
  美国个人信用评估起源较早,在上世纪50年代形成了为金融零售商提供分析的公司,FICO(FairIsaacCorporation)个人评分如今成为美国放款的重要指标之一。我国个人征信评分起步较晚,目前比较典型的是芝麻信用。
  反欺诈业务策略实质就是预测贷前欺诈的概率,互联网大数据征信评分模型中,主要应用的有神经网络,随机深林和logistics回归分析等。
  神经网络模型在预测准确率和稳健性方面有自身的优势。征信的神经网络评估模型主要纳入了金融交易数据和社交关系数据,形成以金融数据为中心其他数据为补充的征信评分。目前我国的在线征信和资质审查已快速展开,基于互联网大数据的反欺诈评分,已经成为贷前风控的重要依据,比如在线金融的“秒贷”就利用反欺诈评分来快速完成审批和放款。
  五、结语
  基于互联网大数据分析的金融征信反欺诈建模是互联网海量大数据建模分析的一个典型应用,其特点是数据维度多,来源广泛且需要底层分布式大数据架构。在上层算法分析模型方面有选择性的构建适合于征信处理的神经网络模型,使得评分可被金融机构采纳并进行高效反欺诈判决。
  笔者结合实际工作经验提出数据准备优化的路径。对于区域封闭的行业数据如交通客服数据,交通装备数据,医疗诊断数据,病人回访数据,金融交易数据,金融画像数据等可形成统一数据标准,严格按照国家或行业标准来建设和治理。对开放的互联网数据,要加强采集机构和大型企业的监管,也要打破委办局之间的隔阂,做好大数据业务生态鼓励更多的企业和个人的创新使用。
  大数据分析与数据处理岗位一般分为业务条线和IT技术条线,业务人员要求精通业务,能够依据应用构建业务建模和梳理业务策略。IT技术线主要分为数据准备维护类,数据建模实现类IT人员。针对高职学生的主要大数据分析岗位一是在业务线,成为业务能手;二是在开发条线,主要是数据维护类相关工作。针对高职学生的大数据分析建模IT能力主要是建模和数据呈现类工具使用,成为熟练的企业“提数”操作人才。
  互联网大数据既要融合共享,又要结合有偿和免费利用;既要做到人人提供数据,又要遵循法律法规对于敏感数据需授权使用。
  参考文献:
  [1]于曉阳.互联网+大数据模式下的征信—以芝麻信用为例[J].北方金融,2016,(11):73-75.
  [2] 吴俊一.基于logistic回归的信用反欺诈预测模型[J].价值工程,2020,(1):206-210.
  [3] 仵伟强,后其林.基于机器学习模型的消费金融反欺诈模型与方法[J].现代管理工程,2018,(10):51-53.
  [4] 盛杨燕,周涛.大数据时代[M].杭州:浙江人民出版社,2012.
  [5] 邓杰.Hadoop大数据挖掘从入门到进阶实战[M].北京:机械工业出版社,2018.
  [6] 纪贺元.数据分析实践[M].北京:机械工业出版社,2017.
其他文献
摘要:科学技术作为社会发展的源动力,一直以来为经济社会的发展起着重要的支撑作用,而科研经费则作为国家和全社会对科研工作人员的鼓励和保障,其管理问题一直受到高校和科研机构的高度重视,却也同时为其管理中出现的各种问题所困扰。本文整理分析并进一步探索在“互联网+”背景下科研经费信息化管理的相关问题,以期为高校及科研机构在科研经费管理方面提供一些参考建议,同时也为广大的科研人员提供更为友好的科研环境。  
期刊
摘要:随着煤田开采的不断进行,在进行地质钻探的过程中,如果遇到情况复杂的地质环境,会对钻孔施工带来一定的影响,出现漏失现象,需要进行及时的堵漏处理,来更好的保证整个施工过程的稳定性和安全性。本文对煤田地质钻探中钻孔漏失的现象进行分析,并提出堵漏的措施。  关键词:地质钻探;钻孔漏失;堵漏措施  前言:  煤炭资源的需求量在不断的增长,煤炭开采的效率也在不断的提升。在煤田地质钻探施工的过程中,造成钻
期刊
摘要:随着国内信息化的迅猛发展,信息化平台的建设对企业的发展显得尤为关键。本文对油品销售企业的证照管理信息化平台的优势与问题进行了分析,旨在通过信息化推进企业管理现代化,从根本上提高企业证照的规范管理。  关键词:证照管理;信息化平台;规范管理  一、证照管理的信息化平台概述  1. 证照的定义及分类  所谓证照,是指能够表明经行政机关审批或认可、已获得从事特定活动资质的书面凭证,包括各种形式的证
期刊
摘要:结合作者所在馆文献传递工作的实际情况,从社会需求出发,介绍了文献传递工作的重要性,分析研究了现有模式存在的问题,并对文献传递工作提出了一些建议。  关键词:文献传递;馆际互借;资源共享;咨询服务  计算机网络资源环境为图书馆信息服务提供了新的途径,使得远距离文献信息的传递与交换得以实现,从而使一些孤立、分散的馆藏通过电子通信网,组成跨地区、跨的不受地域和环境限制的虚拟馆藏,用户可以在世界的各
期刊
摘要:为顺利实现产业扶贫财务共享中心建设,在调研的基础上,通过对财务共享模式应用前后的风险对比模拟分析,可以进一步探究产业扶贫财务共享中心风险防控体系建设之路,提出产业扶贫财务共享风险识别和评估模型,力争把握好每一个风险点;并借助COSO内控框架构建产业扶贫财务共享中心风险管控模型,有效控制每一个风险点;同时借鉴COBIT框架加强网络安全建设,为产业扶贫财务共享中心提供一个稳定运行的安全的网络环境
期刊
摘要:在应用烟支卷接设备时所需要的条件和生产制作阶段皆具备一定繁杂性,且为了将卷烟生产厂家发展成为一流的卷烟工厂,其卷接设备必须要拥有极高的运行效率。因此,本文主要对烟机机械设备在日常运行中常见的几种故障进行了简要阐述,比如落料器烟丝供应脱节、落料器烟丝吸不满、定量辊和落料辊处烟丝堵塞等,并提出了相应的维修方式。  关键词:卷接设备;常见故障;维修方法  引言  卷接设备在日常运行中常见的故障可按
期刊
摘要:随着时代的发展和信息技术的不断提高,我国煤矿产业中逐渐广泛应用电气自动化技术。在实际的煤矿生产中,使用结合电气自动化的机械化综合采煤技术能够更加保证采煤过程的安全性,操作更加人性化,同时能够保证采煤工作有序进行。在实际的煤矿生产中,工作人员应该要不断对电气自动化技术的应用进行完善和改进,从而创新煤矿产业的发展,保持采煤工作的可持续性发展。本文就煤矿电气自动化进行探讨。  关键词:煤矿;电气自
期刊
摘要:近年来,随着中国经济的快速发展,水利工程的建设规模越来越大,而河道工程是最常见的水利工程之一,其建设技术自然也受了到越来越多的关注。河道堤防工程是指在河流两侧建造的挡水建筑物,它在抵抗洪水和保护农业,工业生产以及居民的财产与生命安全方面发挥着极其重要的作用。因此,对水利工程中河道堤防施工技术的研究是十分必要。  关键词:水利工程;河道堤防;施工技术  一、概述  1.1 河道堤防工程内容  
期刊
摘要:检索是实质审查工作中非常重要的一个环节,审查员在首次检索时对发明申请的理解可能是不到位的,导致首次检索不完整或者不准确,因此补充检索对审查结论的正确与否非常重要。本文提出了针对申请人的意见陈述进行补充检索,通过对两个实际案例分析得出结论:基于申请人的意见陈述,重新确定本申请与最接近现有技术的差异所能解决的技术问题,达到的技术效果,针对性的进行补充检索公知证据,可以提高通知书的说服力;以及基于
期刊
摘要:大事记作为一种重大事件和重要活动的记载材料,对社会发展有着重要的史料价值,但目前大事记的编写普遍存在质量参差不齐的现象,质量问题日渐突出。通过对大事记撰写标准进行深入研究,运用4M质量管理方法,查找大事记撰写的质量问题,剖析原因,提出提升大事记撰写质量的措施。  关键词:档案;大事记4M;质量管理  0 引言  大事记作为档案编研的一种重要形式,专门用以记载某一地区某一个历史时期内具有对当时
期刊