论文部分内容阅读
随着通信行业的不断发展,广大用户开始逐渐享受到多样化的通信服务。但越来越多恶意的异常通话行为不断涌现,大量的群体或个人以电信诈骗、营销或个人攻击等手段对目标人群实现骚扰,使普通用户无法正常通信,导致用户体验变差。这种行为严重影响了用户正常地使用网络资源,恶化运营商的品牌形象,因此对异常通话行为进行识别的研究工作具有非常重要的实际意义。由于电信公司的日呼叫记录数据量都在千万级以上,实现异常行为的识别需要对海量的通话数据进行分析。而海量数据的存储和处理相当困难,只有通过设计合理的分布式系统并使用数据挖掘技术,才能够实现对这种数量级别的业务数据进行分析,进而实现对异常行为的检测。本文首先陈述了异常通话行为检测的背景、研究现状,并对论文的主要工作内容进行阐述。接下来学习相关技术,详细了解数据挖掘算法,重点掌握了数据处理与随机森林等分类算法的相关内容。本文将随机森林算法应用到异常通话行为检测领域中来,并针对话单中异常通话与正常通话数据不平衡的特点,提出KSR解决方案(KSR Solution),即使用K-Means聚类算法对多数类样本降采样,应用SMOTE算法对少数类样本升采样使数据集更加平衡,然后使用随机森林(Random Forest)分类器对样本进行训练,最终对模型进行验证与分析对比。实验结果表明通过该方案训练生成的分类器在误判率、准确率等指标上都有非常好的效果。同时,为了存储、处理海量的话单数据,设计了异常通话行为分析系统,采用Elasticsearch集群,充分利用集群的威力进行高速运算和存储。对数据采集、数据预处理、数据存储以及分析等模块进行设计,其中主要对数据预处理模块进行阐述,介绍了其主要流程并提出层级文件处理方法以减小内存占用。通过对系统进行测试,结果表明本文设计的异常通话行为检测系统有着良好的效果。