基于Logistic回归和SVM的客户流失问题的研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:huanxytt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类是现实活动中经常遇到的一种问题,Logistic回归和支持向量机(SVM)是被广泛应用在分类问题中的经典方法。Logistic回归是一种广义线性方法,通过拟合解释变量和响应变量间的非线性函数给出分类概率并进行分类,模型原理简单且模型容易解释,适用于大规模分类数据;支持向量机分类模型通过最大化间隔、在高维时引进核函数等技术给出优化问题的解进行分类,数学理论优雅,在小样本、高维度、非线性数据上表现更好,但相比Logistic回归,模型可解释度要差些,理论更复杂。两种方法各有优劣,因此本文将两种经典方法放到一起,来解决联通客户流失与否的分类问题。本文首先介绍了Logistic回归的理论,包括对回归系数的似然估计方法和Mallows拟似然估计、一致错分估计这两种稳健方法。接着对SVM进行了原理介绍和算法推导。最后,基于联通客户流失相关数据,用Logistic回归和SVM建立模型。其中,在建立Logistic回归时,为抵抗Logistic回归的极大似然估计易异常点的影响,分别对数据采取异常值删除处理和稳健估计,并将几种处理方法拟合出来的回归系数进行对比,发现在异常值比例很小时,Logistic回归的极大似然估计和稳健估计效果几乎一样。最终发现在分类效果上Logistic回归和SVM相近,但SVM模型总体上要稍好于Logistic回归,尤其对不平衡数据中比例较小的类别,SVM分类模型的预测准确率要明显好于Logistic回归。
其他文献
城市化背景下,城市网络成为城市规划设计关注的重要内容。梳理城市网络相关研究脉络并预测其发展方向对指导城市规划合理的空间结构和制定科学的发展战略具有重要意义。借助C
测绘在当今的城市规划建设中具有非常重要的作用,本文主要就测绘的内容、测绘的需求以及地理信息系统等方面做探讨。
新闻界作为一个大众传播机构,为公众讨论提供和传播其所必需的信息。隐私权的立法宗旨在于维护人们内心的安全和尊重的需要,以及对新闻界进行制约。新闻自由与隐私权寻在天然的
作家的语言风格与其生活经历关系密切,其生活经历对作家语言风格的形成起着制约作用。本文以从维熙的经历为线索,对其前后期作品的语言风格进行具体分析,并在此基础上作比较,前期
电路维修对于电路系统的正常运行具有直接影响,其主要是对系统路线、机械零部件等进行维修养护,从而去提高设备的使用性能,确保线路的安全运行。维修电工是电路维修的关键,需
通过对甘薯采用氮磷钾肥料平衡施肥3414试验方案进行田间试验,试验结果运用计算机DPS数据处理系统软件进行统计分析,模拟出甘薯氮磷钾肥料施用量码值与产量及利润的回归方程,运
从科技与人文教育的溯源与演化过程来看,虽然二者的结合是主流,但是经过近现代科学技术发展引发了二者关系的断裂,至今科技与人文相结合仍是学术界和教育界亟待解决的问题之
数字时代政府治理改革的基本取向为推行以公众为中心的服务供给侧改革,实行基于数据共享的跨部门在线协作,形成基于业务流程的整体性治理结构,灵活运用合作式、智能化治理工
目的:探讨原发性肾病综合征(PNS)患者D-二聚体和24h尿蛋白水平、临床意义及D-二聚体和24h尿蛋白两者相关性。方法:采用免疫浊度法检测72例PNS患者和30例健康人(对照组)血浆D-二聚体