【摘 要】
:
聚类分析是数据分析的一种基本方法,既可以作为一种独立的数据挖掘工具,用来获得对数据分布情况的了解,也可以作为其他数据挖掘算法的预处理步骤。因此,在市场或客户细分、模
论文部分内容阅读
聚类分析是数据分析的一种基本方法,既可以作为一种独立的数据挖掘工具,用来获得对数据分布情况的了解,也可以作为其他数据挖掘算法的预处理步骤。因此,在市场或客户细分、模式识别、生物学研究、空间数据分析、Web文档分类等方面具有广阔的应用前景,得到了国内外学者的广泛关注,取得了丰硕的研究成果。但是从目前的实际应用情况来看,大多数聚类算法均只考虑如何根据原始数据进行单向分析,应用效果不尽人意。针对国内外现有的聚类算法及其应用效果的不足,以传统的CURE算法为基础,提出了反馈式聚类算法。将基于聚类分析的结果数据反馈到聚类分析阶段,根据反馈数据来调整聚类结果,且这个反馈过程是可不断循环求精的。在反馈式聚类算法中,创新性地提出了反馈集、反馈间关系集、结果集的概念,并对相关性质进行了研究。定义了反馈式聚类算法中结果集构建、结果集归并、初始聚类、聚类后处理的四个阶段,并给出了每个阶段的详细实现算法。利用MyEclipse开发工具,实现仿真系统,进行了仿真实验,从聚类结果准确性、异常数据检测率、时间复杂度三个方面进行测试分析,并与CURE算法进行了对比。最后,结合某电信运营商的分析型客户关系管理系统(试点数据集总数为20万),利用反馈式聚类算法对客户进行了细分。从分析和应用的结果来看,反馈式聚类算法可以不断发现原有CRM系统中的数据质量问题,同时在聚类阶段就可将受到过度打扰的客户区分出来,使聚类结果的准确性得到了显著提高。
其他文献
网格工作流是网格计算环境下的一种工作流,随着网格研究的不断深入,网格工作流已经成为该领域的重要研究方向。网格工作流系统提供了在网格中执行由多个有相互关联的子任务组成
现代社会的发展,使得在任何时间、任何地点、任何设备上进行信息交换的需求越来越迫切。而当前的这些服务都是通过传统的C/S模式的,即:有一个中心服务器,客户端都是从服务器端
研究群居性昆虫行为特征的科学家发现,昆虫每个个体能力十分有限,在群落一级上的合作基本上是自组织的,在许多场合中尽管这些合作可能很简单,但是却可以解决复杂的问题。群居
随着信息技术的快速发展,信息安全问题变得目趋复杂与关键,传统的信息安全技术,如防火墙、入侵检测、病毒防范等技术已经不能很好的解决当前计算机系统所面临的安全威胁。可
随着微电子技术、计算机技术和通信技术的快速发展,手机、PC机、音响、MP3、数码相机、摄像机、电视等设备成为人们工作、学习和娱乐的必需品。人们在享受这些设备带来的方便
“状态空间爆炸”问题一直是验证领域不可避免的难题。在验证的过程中,我们发现有许多带有参数的性质具有可归纳的特性,例如路径的长度,随机数的取值范围,状态空间的个数,通
随着计算机技术与通信技术的飞速发展,计算机网络技术在现代社会中的金融、政府、商业、交通、通信、制造业、服务业等各个领域,正发挥着越来越重要的作用。在网络规模不断扩
现在,对等计算(Peer-to-Peer,简称P2P)已经成为计算机界关注的热门话题之一,财富杂志更将P2P列为影响Internet未来的四项科技之一。作为一种特殊的分布式计算技术,P2P在非中
随着数据库技术的迅速发展以及数据库管理系统的广泛应用,各行各业积累了大量的历史数据,而这些激增的历史数据中往往隐藏着很多重要的信息。如何从历史数据中及时发现有用的
电子商务作为20世纪90年代出现的新生事物,以其便捷、高效、低成本的优势,逐步成为新兴的商务活动模式和理念,在世界范围内对各国经济发展带来了深刻的影响,已经成为世界各国制定