论文部分内容阅读
大数据时代,数据成为一种资源,而大数据的特点又影响着数据应用和价值产生。数据挖掘作为知识和价值发现有效工具,聚类算法又是数据挖掘的重要内容,所以聚类挖掘算法在大数据应用方面临着重大的挑战。但是串行的数据处理模式,决定了挖掘算法只能处理小规模的数据集,并且存在海量数据处理效率低、聚类质量不理想等问题。云计算的出现为海量数据挖掘的难题提供了解决方案,其中Hadoop作为云计算的开源实现,已经得到了广泛的应用。Hadoop平台利用HDFS为海量数据提供存储能力,以及通过MapReduce框架屏蔽底层细节提供一个简单的并行编程框架,也就为海量数据的挖掘提供了平台。 本文首先介绍云计算平台Hadoop和两个典型的聚类算法DBSCAN、K-mean,并分析算法中的优缺点,然后在搭建好的Hadoop环境下提出两个算法的改进方案,具体研究内容如下: 1.针对DBSCAN算法提出一个基于交叉划分并行算法——DBSCANBOP,主要是对DBSCAN中的Eps参数敏感和效率低缺陷做改进。DBSCANBOP通过交叉划分数据集,并将分区数据集发送到不同的处理器,处理器根接收到的交叉分区数据集获得自适应的Eps参数,获得Eps参数后,基于MapReduce框架设计并行化执行策略以提高算法效率。最后的实验表明,DBSCANBOP比DBSCAN有更好的聚类质量和更高的执行效率。 2.针对K-means算法提出基于密度改进的——DBK-means算法,主要是对原算法中K初始中心值敏感和效率问题做改进。算法首先计算对象之间的距离以及密度参数,从而获得一个高密度数据对象集,并从高密度数据集中求出K个对象作为初始中心值,在得到K个初始值后,基于MapReduce框架设计并行化执行策略。最后,通过实验验证改进后的算法在聚类质量、聚类效率,数据伸缩率和扩展率方面都有一定程度的改善和提高。