一种基于网格的凝聚层次聚类算法

来源 :云南大学 | 被引量 : 0次 | 上传用户:djsnsd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘的一个非常活跃的研究方向。目前在文献中存在大量的聚类算法,算法的选择取决于数据的类型,聚类的目的和应用。迄今为止,主要的聚类算法可以划分为如下几类:1、划分方法,2、层次方法,3、基于密度的方法,4、基于网格的方法,5、基于模型的方法。 基于层次的聚类算法应用非常广泛,在基于层次的聚类算法中,凝聚的层次聚类算法应用的最为广泛。本文将针对传统的凝聚层次聚类算法存在的不足,提出了一种基于网格的凝聚层次聚类算法。改进算法能得到更好的聚类结果,并且时间复杂度比传统的凝聚层次聚类算法低。 首先,针对已存在的凝聚层次聚类算法的簇间距离度量方法的不足之处,提出了一种新的簇间距离度量方法,该方法有别于已存在的凝聚层次聚类算法中广泛应用的最小距离法、最大距离法,平均值的距离法、平均距离法。该簇间度量方法采用簇中权值最高的代表点的最小距离作为簇间的距离,有效消除了噪声对聚类结果的影响。 其次,传统的凝聚层次聚类算法的时间复杂度在最坏情况下为O(n<3>),由于时间复杂度太高而无法应用到大的数据集。本文针对这一问题,将凝聚的层次聚类算法和基于网格的方法结合起来,先用基于网格的方法进行一次微聚类,然后再用凝聚的层次聚类算法进行聚类。该聚类方法的时间复杂度与基于网格的聚类算法一致,而且聚类效果达到了传统的凝聚层次聚类算法的效果。 最后,对本文提出的一种基于网格的凝聚层次聚类算法的时间和空间复杂度进行了分析,并进行了多次实验,实验结果表明,本文所提出的一种基于网格的凝聚层次聚类算法是正确和有效的。
其他文献
种子是一个特殊的、不可替代的最基本的生产资料,是农业科学技术和各种农业生产资料发挥作用的重要载体,是决定农产品质量和产量的根本内因。 优良的种子是农业增产、增效的
计算机支持的协同工作作为新兴的研究领域,在近几年有很大的发展,且受到广泛的重视,它致力于研究人们在一起的工作方式,通过计算机技术和通信技术的结合,把计算机从传统的孤立的工
随着云计算技术与应用的发展,数据中心遇到新的技术挑战。内存计算等大数据处理应用,使得数据中心对内存的需求量进一步增加,单节点内存容量不足的问题更加严重。数据中心应用具
随着无线通信的快速发展,频谱资源的稀缺促使各种提高频谱利用率的技术得到发展,其中小蜂窝技术和多输入多输出(Multi-Input Multi-Output,MIMO)技术引起了越来越多的注意。不同
无论是基于云平台的高性能计算(HPC in Cloud),还是基于超算中心的云计算服务,高性能计算和云计算在基础设施上的融合都是数据中心重要发展趋势。在融合的趋势下,高带宽、低延时
二十一世纪,人类迈入了"信息爆炸时代".在这个时代,信息靠多种形态信息媒体透过复杂的信息网络系统传递.Internet的盛行,把信息的交互传递推向至高点.在纷繁杂乱的信息爆炸时
缩略语处理是自然语言处理的一个重要任务,具有较强实际应用价值。本文探讨汉语缩略语处理的两个重要方面:基于文档的缩略语自动识别,及基于全称的缩略语自动预测。 对于缩略
Java语言是一种面向对象的语言,它运行在Java虚拟机的平台之上.Java语言具有模块化好,跨平台和类型安全等特点.这些特点使得Java语言更适合于被用来进行快速安全的大规模的软
人体视频运动分析是计算机视觉、计算机图形学和图像处理相互融合的一个重要研究方向,其研究核心是从多个同步视频序列中检测、跟踪人体运动,获取人体运动参数,重建人体三维
相对于传统的电话技术,VoIP在承载技术和体系结构上是一次革命性的改进,VoIP是利用分组交换技术通过IP网(Internet Protocol)承载和传送语音数据。从广义上来讲,VoIP已经成为