论文部分内容阅读
客户频繁流失是电信行业发展中所面临的一个严重问题,随着国外电信运营商的涌入,这个问题必将进一步恶化。为减少或避免客户的流失所带来的高额利润损失,将介绍一种行之有效的解决方案:首先,利用数据挖掘技术建立客户流失预测模型,然后用此模型挖掘出哪些客户将来会流失,并分析出为什么他们要流失,最后,根据这些客户的通话特征和业务喜好采取针对性的措施加以挽留。
本论文应用数据挖掘技术建立客户流失预测模型,并围绕建立此模型的四个步骤进行了分析:数据预处理、客户分群、建立模型、模型评估与优化。
在数据预处理阶段,为了从大量的属性中找出决策规则,所以引入粗糙集知识,对测试属性进行约简,找出真正影响决策的属性,减小决策树的规模;为了使预测的模型更加准确,在建模之前采用聚类算法对客户进行分群。客户分群的目的就是为模型提供有共同特征的用户群体,使得模型可以建立在不同的群体上。为了减少在调整簇中心过程中所带来的计算复杂性,本文给出了一种改进的k-平均算法来得到具有相似特征的用户群体;在建立模型阶段,主要介绍了决策树算法中传统的ID3算法及其改进算法;在模型优化与评估阶段,介绍了10-折交叉验证和boosting技术。