聚类K-means算法及并行化研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:ryuichist
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘(Data Mining),又称为数据库中的知识发现(简称KDD),是从大量数据中提取可信的、新颖的、有效的并能被人们理解的模式的处理过程。它是一门新兴的交叉学科,汇集了来自机器学习、模式识别、数据库、统计学、人工智能等各领域的研究成果。聚类分析是数据挖掘中的一个重要研究领域。它将数据对象分组成为若干个类或簇,使得在同一个簇中的对象比较相似,而不同簇中的对象差别很大。K-means属于聚类分析中一种基本的划分方法,常采用误差平方和准则函数作为聚类准则,该算法在处理大数据集时是相对可伸缩且高效率的,同时具有潜在的数据并行性。但是这种算法依赖于初始值的选择以及数据的输入顺序;此外,当运用误差平方和准则函数测度聚类效果时,如果各簇的形状和大小差别很大,为使误差平方和Jc值达到最小有可能出现将大的聚类簇分割的现象。针对K-means算法采用准则函数衡量聚类质量存在的局限性以及对初值的依赖性,通过分析和研究,基于多次取样一次聚类寻找最优初值的思想,提出了一种新改进的算法,并辅以实验证明了改进后算法的稳定性。为了进一步提高算法的执行效率,论文同时研究了并行K-means算法的实现。选用局域网环境,并行虚拟机PVM和LINUX,共同搭建的机群系统作为并行计算平台;在并行程序的模型上采用了Master/Slave模型。该并行算法将数据集分配到各个Slave节点机上实现数据并行,最后由Master节点机进行汇总给出结果。在研究K-means算法自身的特点以及各机器节点的处理能力的基础上,提出了一种较优的数据划分策略。论文以时间复杂度和加速比等指标从理论和实验结果两个方面对并行算法进行了评价。实验结果表明:并行K-means算法的聚类结果与串行算法相同,但执行效率得到了很大的提高。
其他文献
为了实现在双绞线上直接传输IP分组,这一全新的网络技术,在对TCP/IP协议和其它网络协议分析的基础上,通过学习传统局域网交换技术和IP交换技术的发展现状,比较两种交换技术,
粒子系统是三维图形引擎的重要组成部分。是模拟动态、模糊、不规则物体的有效算法。在虚拟现实、数字娱乐、三维仿真、影视特效等领域有着广泛应用。随着图形处理器(Graphic
本文对柔性体仿真中碰撞技术进行了研究。文章在深入研究现有碰撞检测算法的基础上,以织物仿真为背景,在质点一弹簧模型的建模基础上,采用层次区域分割并融合,AABB层次包围盒的方
随着视频压缩技术和网络传输技术的发展,视频由于具有直观、信息量大等优点,成为了人们获取信息的主流方式。如何对视频数据进行有效的组织和管理以便于人们能够方便快捷地找到
随着网络规模的不断扩大,因特网流量飞速增加,如何从海量的信息中快速有效地获取所需要的内容成为人们研究得越来越多的一个课题。信息过滤系统主要面向骨干网节点,系统功能
降雨是引起土壤侵蚀的主要原因之一,为了减少降雨侵蚀造成的危害,构建降雨侵蚀预测模型已经成为我国水土保持工作的一个研究重点。降雨侵蚀预测模型是土壤侵蚀研究的重要部分
随着Web服务的兴起和Web服务技术的不断发展、相应的标准不断出现,为整个网络环境提供了相对松散的计算平台。基于Web服务的软件开发模式也在不断完善,其中,面向服务架构SOA(Ser
随着存储技术的发展,人们对信息存储可靠性的要求越来越高。磁盘阵列在提供高可靠性的同时,还能通过异步访问各成员磁盘,提供高带宽和大容量,受到使用者们的青睐。磁盘阵列有
随着Internet技术的飞速发展和广泛应用,一种新的计算模式—网格计算蓬勃发展起来。网格作为基于Internet的协同资源共享和问题求解环境,推动Internet发展到了新的阶段。在网
时间规划问题,以时间关系约束作为推理依据,是人工智能所涉及的特殊的规划领域。现实生活中,很多问题都属于这一范畴,运动会竞赛日程表的编排就是其中比较典型的一个。现阶段,国内