基于云平台的数据聚类算法研究

来源 :华南师范大学 | 被引量 : 0次 | 上传用户:weiwu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代,数据成为一种资源,而大数据的特点又影响着数据应用和价值产生。数据挖掘作为知识和价值发现有效工具,聚类算法又是数据挖掘的重要内容,所以聚类挖掘算法在大数据应用方面临着重大的挑战。但是串行的数据处理模式,决定了挖掘算法只能处理小规模的数据集,并且存在海量数据处理效率低、聚类质量不理想等问题。云计算的出现为海量数据挖掘的难题提供了解决方案,其中Hadoop作为云计算的开源实现,已经得到了广泛的应用。Hadoop平台利用HDFS为海量数据提供存储能力,以及通过MapReduce框架屏蔽底层细节提供一个简单的并行编程框架,也就为海量数据的挖掘提供了平台。  本文首先介绍云计算平台Hadoop和两个典型的聚类算法DBSCAN、K-mean,并分析算法中的优缺点,然后在搭建好的Hadoop环境下提出两个算法的改进方案,具体研究内容如下:  1.针对DBSCAN算法提出一个基于交叉划分并行算法——DBSCANBOP,主要是对DBSCAN中的Eps参数敏感和效率低缺陷做改进。DBSCANBOP通过交叉划分数据集,并将分区数据集发送到不同的处理器,处理器根接收到的交叉分区数据集获得自适应的Eps参数,获得Eps参数后,基于MapReduce框架设计并行化执行策略以提高算法效率。最后的实验表明,DBSCANBOP比DBSCAN有更好的聚类质量和更高的执行效率。  2.针对K-means算法提出基于密度改进的——DBK-means算法,主要是对原算法中K初始中心值敏感和效率问题做改进。算法首先计算对象之间的距离以及密度参数,从而获得一个高密度数据对象集,并从高密度数据集中求出K个对象作为初始中心值,在得到K个初始值后,基于MapReduce框架设计并行化执行策略。最后,通过实验验证改进后的算法在聚类质量、聚类效率,数据伸缩率和扩展率方面都有一定程度的改善和提高。
其他文献
如今的互联网涉及生活工作,给人们方方面面都带来极大的方便。之前,数据信息往往都是孤立,无法进行分享与利用。随着数据价值意识逐渐深入企业,不少企业将过往内部的信息资源进行
随着互联网的蓬勃兴起,企业应用从传统的客户机/服务器模式开始面向互联网,面向分布式应用。作为企业级应用程序解决方案之一,J2EE被认为是当今可用于企业软件开发的最佳平台。
近年米,伴随着Internet技术的飞速发展,传统的HTML数据交换方式己经越米越满足不了日益增长的数据交换的需求。XML作为一种极有前途的互联网上数据交换的新模式,己越来越多的取
本文首先介绍了分布式数据库系统的基本概念,如分布式数据库系统的模式结构及体系结构、数据分片的原则及分类、数据分布的策略等;然后简要描述了分布式查询的处理过程和分布式
网格的总体目标是在当前日益发达的网络传输基础设施的基础上建立信息处理基础设施,将分散在网络上的各种设备和各种信息以合理的方式“粘合”起来,形成高度集成的有机整体,向普
本文针对企业检索的应用背景,以构建高性能分布式全文检索系统为目标,在方正全文检索引擎的数据和实践基础上,研究了分布式全文检索系统的增量检索策略和效率优化。具体内容包括
本文对美国 Sandia 国家实验室 Trilinos 项目的设计思想、组织结构进行了详细介绍和分析。Trilinos 项目致力于更加便利地对数学软件库进行设计、开发、集成和支持。目的是
无线传感器网络具有易部署、自组织、高容错、可靠性等优点,它在众多领域中都占有一席之地。与传统无线网络对比,无线传感器网络并不着重强调高服务质量的保障和高效带宽利用。
无线传感器网络(WSN)作为新一代网络技术,具有低成本、低能耗、自组织等优良特性。WSN自诞生以来就一直是计算机信息领域的研究热点,其应用也从军事领域扩展到其他许多领域。节
本文在市场需求和理论研究的基础上,立足国内外相关条件接收技术标准,着重阐述了数字电视条件接收系统在同密模式下模块接口的实现。  具体内容安排如下:  第一章简要介绍数