基于数据挖掘的电信行业客户流失预测实证研究

来源 :经营管理者·下旬刊 | 被引量 : 0次 | 上传用户:zhxg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:随着4G时代的到来,通信运营商的竞争越来越激烈,在市场容量逐渐饱和,终端产品和通讯资费相对平稳的情况下,存量客户的保有显得更加重要,如何防止用户流失,是各运营商关注的焦点问题。本文以某地区运营商的数据为依据,结合Modeler的CRISP-DM数据挖掘流程,运用决策树C5.0算法建立用户流失预测模型,并运用SPSS软件进行分析,最后根据预测结果提出有针对性的维系策略。
  关键词:电信行业 客户流失 预测研究
  随着4G牌照的发放、虚拟运营商的出现,给通信行业带来了新的发展机遇和挑战,市场竞争变得更加激烈。运营商的经营模式已从“生产型”向“利潤型”转变,存量和增量是电信运营商发展客户时最看重的两个指标。但是随着互联网交友软件的高速发展尤其是微信的普及,对传统通信行业产生碾压式的冲击。因此存量客户的保有显得更加重要,只有确保存量市场的基本稳定,才能够真正放开手去拓展增量市场,而影响存量市场稳定的最大因素就是客户流失。
  据某市运营商2016年3到5月的数据统计显示,后付费用户的流失率达到5.9%,而预付费流失率则达到9.8%,每个月总体有4万多的用户在流失,如果能将流失率减少一个百分点,就可以减少增量约4000户,从而减少增量的成本。鉴于此,本文结合Modeler的CRISP-DM数据挖掘流程,重点研究基于决策树C5.0算法的用户流失预测模型,希望能精准抓取即将流失的目标用户,尽早介入,并配合适当的政策,改善服务、提升用户消费感知、降低流失规模。
  一、文献研究回顾
  客户流失问题已越来越引起电信运营商的重视,面对激烈的竞争,各运营商纷纷采用现代客户关系管理理论提高客户服务水平,以此來提高客户的满意率和忠诚度,从而有效减少客户流失。数据挖掘是通过对大量数据的分析,来发现隐藏在数据内的有价值的信息,强大的数据分析能力已被应用到电信运营商的客户关系管理中。采用数据挖掘方法进行客户流失预测,在国内外已经开展了大量的研究工作。
  美国的Sprint公司、法国电信、美国电话电报公司、加拿大移动通信局和比利时移动通信局等,都已经针对移动通信行业开展了客户流失的数据挖掘工作。Wei等人以假设数据类别是对称的条件为前提,使用客户信息以及客户通话行为信息作为研究样本,在构建流失预测模型时选择决策树算法,并且获得相对较高的提升度。Kitayama使用决策树算法首先对客户资料分类,进而将客户分类为重要客户和一般客户,再根据客户的其他行为特征对客户进行分类,据此来识别客户价值比较高的客户,持续关注这类客户的客户关系流失前重点挽留。
  国内也有不少学者展开了研究,应用C5.0决策树算法、CART决策树算法、RBF神经网络建立固网客户的收入流失预警模型,开展提前、有效的挽回营销工作,最大程度减少客户流失。基于决策树C5.0、BP神经网络及 Logistic回归算法的组合预测模型,对某电信企业进行客户流失预测,验证了模型的有效性。针对基于我国电信运营商的数据运用决策树等算法分别建立了相应的预测模型,并给出了维系客户的对策。
  由上述文献可知,数据挖掘技术在电信行业客户流失预测方面的研究和应用已经取得了很大的成果。但是,由于电信行业自身的特点,如数据量大、数据维度高、业务发展快等,用于建模的数据也产生了较大的变化,例如原来常用的语音类行为数据,在当前的移动互联网时代,已不能全面反映出用户的使用特征,用户对于流量的使用情况已成为很重要的特征。因此,结合当前的业务实际,全面分析用户的行为数据,有效掌握用户的行为特征和兴趣爱好,将更有效地提高客户流失预警的准确率,从而降低客户流失规模,节省营销成本。
  二、建模准备
  CRISP-DM将挖掘过程分为商业理解、数据理解、数据准备、建立模型、评估模型、发布模型等六个子过程,其中这六个子过程可以反复迭代,直至达到商业理解的要求或建立出理想的模型为止。本文运用某地区开放的大数据平台进行数据提取。通过对比用户流失前后用户信息、终端信息、上网行为、消费行为等方面特征, 分析影响客户流失的重要因素,利用2016年3月出账用户及其4-6月的流失结果建立C5.0决策树,预判2016年6月出账用户在7-9月的潜在流失情况。为下一步维系准流失用户,提升用户价值,做精准的数据支撑。
  1.业务理解。流失客户一般是指具有流失倾向,并且在未来的很短一段时间(如一个月)内极有可能真正流失的在网客户。客户在真正流失之前往往会有很多特征表现出来,比如通话费用和次数突然大幅下降,设置呼叫转移到其他的号码上,向其他运营商咨询业务等。本文将数据流失定义为本月出账用户在接下来3个月任意一个月不出账(数据库月报表中,lost_tag=1),则为流失用户。
  用户会受到如资费、服务、优惠活动、个人收入、工作等各方面的因素影响,这些客观因素加上自身的体验感知从而产生流失行为。欲流失用户在消费行为上通常会有一定的表现特征,本文将流失用户场景主要归纳为三种,如表1所示:
  2.数据理解。数据理解的目的是在业务理解的基础上,围绕业务问题收集原始数据,明确数据含义,清晰数据的各种差异,并通过技术手段实现数据的一致化和集成化。另外,数据理解还包括数据质量的评估和调整,数据的多维度汇总浏览等,其目的是把握数据的总体质量,了解变量取值的大致范围。
  在电信行业,不同时期各运营商提供的产品、促销、服务不尽相同,客户体验也有所差异,流失客户表现出来的特征在不同时期也有较大差异。因此,建模用的训练数据和测试模型用的测试数据应当取连续的一段时间或相近的一段时期,以保证预测的准确性。鉴于此,本文以某地市2016年3月出账且入网1年以上的43.3万全网语音用户为建模目标用户群,预测6月出账且入网1年以上的42.2万全网语音用户流失情况。并且以上用户群均剔除无语音、无短信、无流量用户,以及极低使用(使用10分钟、10M和10条短信以下)、纯增值业务使用、纯赠款使用用户。   根据业务理解的流失场景分析及数据库的现有指标信息,从3月出账用户数据中选取出相应的基础指标,共选择105个字段,其中1个目标字段:
  (1)基础信息:用户编码、用户号码、用户性别、用户年龄、在网时长、品牌名称、套餐名称等;
  (2)消费行为(近3个月数据):流量使用情况、通话情况、短信发送情况、充值情况、网络使用情况、终端类型、缴费情况等;
  (3)用户状态及粘性信息:实时余额、是否停机、是否流失——输出、是否银行托收、套餐固定月租、增值月租出账收入等;
  (4)用户标签:社交达人、微信使用次数、国内長途强需求用户、个人气质类型、消费流量类型、港澳漫游需求用户等;
  3.用户分群。鉴于本次涉及用户规模较大,且用户资费、人群有较大不同,针对提取的建模目标用户群体,按照业务经验,分别从用户消费金额、合约情况、入网月数、付费方式等各角度对流失情况进行透视统计,得出用户入网月数、付费方式不同的用户流失率有较大区别,详见表2、3。
  (1)按入网月数分析。
  显然,随着网龄的增加,用户流失率逐步降低。网龄在两年内的用户是流失高发群体。对于网龄一年以上用户,入网两年内用户的流失占比明显高于入网两年以上的用户。
  (2)按付费方式分析。
  由表3知,后付费用户的流失比例远低于预付费,符合业务逻辑。
  根据数据分析结果,本文要对建模目标用户群体进行分群,再对每个细分的用户群体分别进行建模,主要分成以下4类用户群:预付费且入网2年内、预付费且入网2年以上、后付费且入网2年内、后付费且入网2年以上。
  4.数据预处理。数据预处理是建模前的数据准备工作,数据预处理的目的一方面保证建模的数据是正确的,另一方面,通过对数据格式和内容的调整、转化、衍变等使建立的模型更加准确和有效。本文数据预处理的工作主要包括对数据的选择、清洗、缺失值的处理、属性转化、衍生变量的生成、离散化、抽样等等。
  (1)数据清洗。对2016年3月出账用户数据进行整理,共选择105个字段,其中1个目标字段。对现有变量定义缺失值并进行数据审核,剔除缺失超过50%的字段。同样,对新的衍生变量,计算波动值后需再一次进行数据清洗,经数据清洗后的数据完整字段达53.33%,完整记录达56.54%,较未清洗前完整字段率有效提高5.29%,完整记录有效提高56.54%。
  (2)变量趋势化。由于欲流失用户在消费行为上会有一定的变化,尤其是在充值金额、充值次数、ARPU、流量、短信条数、通话时长、闲时流量、闲时通话、信用度等连续变量上体现一定程度的衰减变化。因此,对于近三个月的连续变量,以T-2、T-1月均值作为用户正常的消费行为为基准,计算T-0月用户因流失消费行为的波动值,综合成新变量,即:
  (3)变量离散化。极端值和离群值在建模时常常会使模型的参数拟合不准确,影响模型效果,离散化可以有效的降低异常数据对模型的影响。对于连续变量:余额、累计充值金额、增值业务出账、微信使用次数存在不合乎常理的值,因此对连续变量进行最优离散化操作。使用IBM SPSS Statistics 19.0的的“最优分箱化”操作处理连续变量,指定根据流失标签自动优化分箱,得到需要离散的变量有余额、累计充值金额、增值业务出账、微信使用次数,最终处理结果见表4。
  (4)变量宽表。根据以上原则和方法进行数据准备,最终得到模型输入,部分内容见表5。
  三、模型创建
  1.模型建立。通过多种建模方式比较,本文选择总体精准度较高的决策树C5.0为最佳建模方法。利用2016年3月出账用户数据建立C5.0模型,并作以下操作,相应参数设置见图1:
  (1)将样本集进行分割,选择使用分区数据选项,并接入分区接点,选择70%为训练集,30%为测试集;
  (2)为使输出结果精度提高,组符号选项置空;
  (3)为提高模型预测的稳健性,选择使用boosting(自举法),助推模型数量定为10个,交互验证10次;
  (4)模式使用简单模式;
  (5)模式支持普遍性,防止过度拟合;
  (6)前期统计整体数据完整性,指定训练集中的噪声数据为20%。
  2.模型评估。由于用训练集拟合模型,而总体精确度是利用所有样本进行计算,因此模型的预测能力会有所影响,本文通过测试分区对模型进行训练,得出流失预测模型的预测能力,见表6。测试集精确度=(测试集正确预测流失用户数+测试集正确预测不流失用户数)/测试集预测数。
  3.模型输出及查全查准率分析。对于2016年6月出账且入网一年以上用户进行相同的数据预处理,得到与建模时相同的变量,利用变量通过C5.0模型预测后付费2年以上、后付费2年内、预付费2年以上和预付费2年内四个用户群体的流失用户,预测结果同步上传到相应的数据库,并对结果进行查全查准率计算,结果见表7。
  四、模型应用
  1.模型剪枝。为便于后期模型固化输出,根据以上建模过程及思路,上述所建立的C5.0树并未经过修剪。为了应用模型结果,提炼模型规则,将对C5.0进行剪枝。考虑到数据量较大,也为避免过度拟合的情形发生,设置为专家模式。
  (1)后付费修剪严重性(纯度)设定85,预付费2年以上修剪严重性(纯度)设定为95,预付费2年内修剪严重性(纯度)设定为100;
  (2)每个子分支最小记录数均为15;
  (3)选择全局修剪;
  (4)因收入因子较多,选择辨别属性避免过度拟合。
  2.形成决策树。针对四类不同的用户群体,分别运行模型形成对应的四棵C5.0决策树,以下以后付费2年内用户群为例进行展示,如图2所示:   3.结果分析。
  (1)结果可靠性分析。
  C5.0模型输出预测结果和置信度,置信度即为预测结果的可靠程度。通过比较置信度80%以上和80%以下的用户,如表8所示,置信度较高的用户判别准确率明显高于置信度较低的用户。因此,只针对置信度高于80%且判别为流失的用户投放维系资源,这对于维系政策的精准投放,维系成本的有效控制具有重要作用。
  (2)特征分析。
  对2016年6月出账预测为流失用户从使用舒适度方面进行分析,如表9、10、11所示,制定相应的维系策略。
  4.维系策略。
  针对置信度高于80%且判别为流失的用户,结合上述分析:
  (1)后付费前期有超出套餐,但衰退用户:该类用户对套餐资源有一定需求,且对资费较为敏感,可通过存费送大流量、承诺最低消费送流量等业务增加用户粘性;
  (2)后付费无超出套餐且流量、语音衰退用户:该类用户对套餐资源需求较低,针对衰退30%以下用户,需进一步分析用户画像人群,通过存费送机或通信类礼品对用户进行捆绑;衰退30%以上用户,采用人工介入辅导,通过降低套餐方式进行维系;
  (3)预付费:超出套餐占比较低,整体流量使用率不高的用户,可采取充值送话费方式进行维系。
  随着竞争的加剧,存量客户的保有直接关系到各电信运营商的效益。如何在客户即将流失之前有效发现并刻画其重要特征,对于运营商留住客户、提升自身竞争力具有重要意义。本文以CRISP-DM数据挖掘方法论为框架,从实际业务理解出发,通过分类预测模型中决策树C5.0的算法建立了客户流失预测模型,从预测结果看,有效获取了客户的流失倾向,对电信运营商营销方案的制定提供了重要参考依据。
  参考文献:
  [1]高洋.基于数据挖掘的电信客户流失预测系统研究[D].昆明理工大学,2013,4.
  [2]Chih-Ping Wei,I-Tang Chiu. Turning telecommunications call details to churn prediction: a data mining approach[J].Expert Systems with Applications, 2002,23(2).
  [3]M Kitayama,R Matsubara,Y lzui. Application of data mining to customer profile analysis in the power electric industry[C].2002 IEEE Power Engineering Society Winter Meeting,2002.
  [4]何躍等.基于数据挖掘的固网大客户流失纪合预警[J].软科学,2012(10).
  [5]余路.电信客户流失的组合预测模型[N].华侨大学学报,2016,9.
  [6]郭俊芳.电信领域客户流失预测模型的研究与实现[D].大连海事大学,2007,10.
  [7]迟准. 电信运营企业客户流失预测与评价研究[D].哈尔滨工程大学,2013,1.
  作者简介:徐文瑞(1980—)女,河南南阳人。广东科学技术职业学院讲师。研究方向:电子商务。
其他文献
摘 要:西蒙的有限理性决策和林德布洛姆的渐进决策全面批判了传统理性模式,在决策研究领域中占据重要地位。两者虽有所差别,但在一定程度上具有契合點。中国的渐进式改革融合了有限理性决策和渐进决策,在公共政策的制定过程中采取了有限理性约束下的渐进决策模式。本文从有限理性约束下的渐进决策入手,以我国生育政策为例,对我国政策制定中的渐进决策模式进行研究与分析,了解政策制定中有限理性的表现,发现实施过程中存在的
期刊
摘 要:伴随人口老龄化的逐步深入,老年健康服务的刚性需求逐年增加,而这样的时代背景也使得老年志愿者队伍悄然兴起。2017年3月我国发布了《“十三五”健康老龄化规划》,在文中提出要提高老年人健康水平,实现健康老龄化。本文主要在健康老龄化战略的指导下,探索分析了老年志愿者在助老服务方面发挥的重要作用,也提出了该群体当前发展存在的问题,旨在期望老年志愿者队伍在今后的发展中能够得到政府及社会的支持,在助老
期刊
摘 要:买手小组制作为一种具有特色的新型制度,在电商快速发展的新形势下逐渐出现了许多不足,笔者以韩都衣舍为例,通过对近年来其发展模式和发展状况的研究分析,找出了其买手小组制所出现的问题。  关键词:买手小组制 新形势 问题 韩都衣舍  一、研究背景  电子商务作为新型购物模式不仅给人们的日常生活带来了便利,同样催生了一批依托于互联网平台的服装销售企业,买手制作为其中一种优秀的运营模式也走入了大众的
期刊
摘 要:游客满意度作为影响旅游景区竞争力的关键性因素,具有重要的研究意义。通过构建游客满意度评价体系设立问卷,在景区随机发放,对回收的有效数据进行分析,结果表明:游客对天涯海角景区的整体满意度较高,其中对娱乐及休息设施、咨询服务、餐饮及商品价格、景区文化价值等满意度较低。据此,景区管理者应完善景区服务设施、提高从业人员水平、合理控制景区产品价格、深入挖掘景区文化特色,从而实现天涯海角游览区的可持续
期刊
摘 要:“十二五”期间,烟台市鲁菜产业规模持续攀升,营业收入、平均利润率等各项经济指标均位居山东省前列。初步形成了现代服务方式和传统业态协同发展、“走出去”与“请进来”双向互动、城乡市场一体化进程不断加快的良好格局,成为拉动全市国民经济稳定增长的重要力量。  关键词:鲁菜 产业 转型 品牌 人才培养  “十二五”时期,面对错综复杂的国内外经济形势和艰巨繁重的转型升级压力,烟台市鲁菜产业保持良好发展
期刊
摘 要:随着经济的不断发展,大学生消费呈现出一定的变化。基于参照依赖理论,从经验、情绪状态、文化、目标四个因素分析了大学生非理性消费的原因,并提出了解决该问题的具体方法和有效途径,从而帮助大学生树立正确的消费观,使其在以后的成长中能够进行合理、科学的消费。  关键词:参照依赖 价值判断 经验 文化 情绪状态 目标特点  随着经济的不断发展,人们的消费结构发生了巨大的变化。大学生作为社会中一个重要的
期刊
摘 要:本文主要是分析广西田阳农产品物流发展的特点和现状,田阳作为广西农产品主要的种植及生产地,有诸多农产品物流新型化值得研究及完善。通过论述应找出田阳农业物流存在的主要问题:农产品运输与存储过程中保鲜技术落后,农产品集成化落后,主要表现为农产品分包销售过程中对地域运输及销售的不确定性,总体上对农产品市场需求信息掌握不到位。田阳地处广西农业大县,但农产品物流管理水平较低,也因此导致了农产品从种植,
期刊
摘 要:云南白药作为一个百年企业,从初创至今经历了计划经济时期改革、开放时期一直发展至今,其蓬勃的生命力是值得很多企业借鉴的。本文力图通过对云南白药从初创到现在的各个时期的大事件的梳理,清晰详细地呈现出云南白药的发展历程,希望对以后学者的研究有一定的帮助。  关键词:云南白药 发展 转型  一、第一阶段:1880-1938年 曲焕章与云南白药  曲焕章自幼家贫,1880-1898年间随姐夫学医。1
期刊
摘 要:笔者采用定量与定性相结合的方法,分析了青海省农村劳动力现状及转移特征,以供参考。  关键词:青海省 农村劳动力 转移特征 分析  一、青海省农村劳动力及农村从业劳动力现状分析  1.青海省农村劳动力现状分析。青海省是一个农牧业大省,是西部12省区中经济发展相对落后的省份。受自然条件的限制,青海省农村可耕地少,其农村剩余劳动力资源相对丰富,剩余劳动力数量较大,有逐年增加的趋势。据统计到201
期刊
摘 要:社会主义市场经济迈入高速发展的今天,广大农村正在经历城乡一体化的改造与建设,经济的发展带来城市土地的扩张,属于乡村尤其是古村落的土地也随之减少,历史背景下的古村落保护迫在眉睫。如何在古村落发展与经济发展中寻找一个平衡点,成为当前古村落保护的一大关键要素。  关键词:古村落保护 市场经济发展 协调  村落,主要指大的聚落或多个聚落形成的群体,常用作现代意义上的人口集中分布的区域。包括自然村落
期刊