高效并行聚类算法研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:liongliong460
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘中的核心技术之一。随着互联网的发展,现实世界中的数据量呈现爆炸式地增长,这导致传统的集中式聚类技术在面对大数据时无法有效地处理。随着MapReduce框架的出现与流行,利用该框架进行分布式并行的聚类成为目前的一大研究方向。如何在MapReduce框架下对大规模数据集进行高效并行的聚类是本文要解决的问题。本论文的研究内容包括并行K-means聚类、并行CLARANS聚类、基于CHSMST算法的并行聚类、并行层次搜索网页聚类PHSPC。主要做出了如下创新性工作:   ●提出了面向Hbase数据库、基于MapReduce框架下的并行K-means聚类算法。该算法首先利用蓄水池抽样原理从全体数据集中等概率地选出样本点作为初始的聚类中心。然后启动MapReduceJob迭代地对聚类中心进行求精。该算法具有近似线性的加速比、良好的可扩展性、较高的结果一致性和并行正确率。最后比较了面向HDFS和Hbase的并行K-means聚类算法。   ●提出了基于MapReduce框架下的并行CLARANS聚类算法。该算法以样本为聚类中心来聚类所有数据。首先修改了原有的CLARANS算法使得其更加适合于在MapReduce框架下高效执行,然后分三步对其进行了并行化。最后的实验结果显示,该算法具有良好的加速比和可扩展性、极高的结果一致性和并行正确率。与并行K-means算法相比,聚类结果更加稳定。   ●提出了在MapReduce框架下的基于超曲面和K均值的并行聚类算法CHSK-means。首先介绍了超曲面分类及其并行化的内容。接着我们将CHS聚类的过程进行了并行化,并分析了在MapReduce框架下并行化MST的低效性,然后给出了一个替代的解决方案CHSK-means。实验结果表明,对于相同的数据量和计算资源,该算法的运行时间与并行K-means和并行CLARANS相比最短,且具有非常优异的加速比和可扩展性,极高的结果一致性,但在并行正确率上对实验数据集的测试偏低,原因是我们给出的对MST的替代方案在这些数据集中不能较好地分割局部密集区域。   ●提出了基于MapReduce框架下的并行层次搜索网页聚类算法PHSPC。算法首先分析了目前的搜索引擎对网页结果展示的一些不足,给出了对用户而言比较友好的浏览方式。然后提出了对搜索网页进行层次聚类的算法,并在MapReduce框架下进行了并行化。通过实验分析了各个参数对聚类结果的影响,最后展示了一种对聚类结果进行浏览的层次方法,大大方便了用户的使用。
其他文献
学位
近年来互联网高速发展,已经逐渐成为人们获取信息的主要来源,互联网信息总量大并呈爆炸性增长,对这些信息的存储给互联网公司提出了新的挑战。为了应对互联网中海量数据存储
在信息化深入应用发展的大数据时代,对迅速膨胀的海量数据和信息的管理与利用成为影响前沿技术与科学研究发展的重要因素。大数据的存储与处理是大数据应用中的核心问题。本文
具备运算和通信能力的传感器节点是构成无线传感器网络(WSN)的基本单位,WSN拥有成本低廉、配置简易等优良特点。随着技术的发展,WSN在军事和工业上的应用越来越受到关注,有着重
网络测试是验证网络设备功能和性能,保证网络正常运行的重要手段。网络测试流量生成是网络测试中的关键技术,直接决定着测试结果的正确性和误差精度。随着网络规模的不断扩大
网格门户极大地方便了人们对网格资源的使用,但在传统的网格门户中,大多只支持单次提交一个作业的传统使用模式,对自动化的大批量作业同时提交的使用方式并没有很好的支持,也没有
当前的在线数据存储系统面临互联网应用带来的新型负载,具有规模大,并发度高,形式变化丰富的特点。以往一般使用关系型数据库作为在线数据存储系统,但当面对新型特点的负载时
时间同步技术是网络应用的关键支撑技术之一,时间同步保证网络节点之间时间一致,其主要考虑两方面因素,时钟偏差和时钟漂移。在计算机网络中,主流的时间同步协议是NTP(Networ
为了满足在轨服务、编队飞行、天基目标近距离观测等空间任务对于高精度实时定位与定速的需求,提高航天器自主导航能力,扩展GNSS技术在空间段的应用领域,需要开展基于GNSS的空间
学位