基于Hadoop的数据挖掘算法的分析与研究

被引量 : 0次 | 上传用户:lqgomqj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘,也称数据库中知识发现,就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的非平凡过程。目前,数据挖掘技术已经在金融、医疗、军事、管理等诸多领域的决策分析中被广泛应用。随着计算机和互联网技术的高速发展,数据量也呈爆炸性增长,极大的加重了数据挖掘技术的负担。云计算的出现,为数据挖掘提出了新的方式,其弹性化的计算能力,海量的存储能力,节约成本,提高效率方面的优点,成为解决数据挖掘技术所面临难题的有效方式。Hadoop是一个用于构建云计算平台的Apache开源项目,基于此项目的分布式计算平台已经非常稳定,并被广泛应用于很多领域。在Hadoop平台上,采用了MapReduce编程模型来进行分布式计算,使用HDFS分布式文件系统来实现文件存储。将传统的数据挖掘算法移植到Hadoop平台下,便可进行大规模数据的挖掘任务。Mahout便是Apache下一个全新的开源项目,提供了一些使用MapReduce编程模型完成的机器学习和数据挖掘算法,旨在帮助开发人员更加方便快捷地创建智能应用程序。因此本文首先从MapReduce编程模型和HDFS两方面来介绍Hadoop平台,分析其核心架构和运行机制。然后对Mahout进行了深入的探讨,仔细研究了Mahout内部数据表示模型,并以K-Means算法为例,分析其在Mahout中的并行化策略。最后,使用路透社21578新闻集,对它进行聚类来验证该算法的有效性,并分析实验结果,对K-Means算法聚类结果从不同距离度量方式,运行时间,迭代次数等角度,进行评估。并使用不同数据量数据,分别在串行和并行两种模式下运行K-Means算法,比较其效率。
其他文献
随着工业化与信息化的不断融合,如何用科学、客观的方法综合评价供电企业信息系统建设项目的建设效果,总结经验教训,为后续同类项目的决策提供依据,持续推进信息化建设,提升企业管
随着高速公路近几年的快速发展,高速公路养护管理也变得日益重要,目前我国的高速公路养护管理模式多种多样,各地也都在积极进行养护管理模式探索工作,因此对高速公路养护模式
长北区块是长庆油田公司重要的油气资源勘探区块,因此,深入研究开展加快长北区块双分支水平井的研究,不仅能进一步加深钻井技术理论的研究,而且对加快长北区块的勘探开发步伐具有
有机太阳能电池以其原料来源广泛、制作工艺简单、成本低廉、耗能少、可制作柔性器件以及易于大规模生产等突出优势,成为第三代太阳能电池中重点研究和发展的对象。为了进一步
当今世界,科学技术迅猛发展,信息化和互联网使市场经济呈现全球化趋势,企业间的竞争日趋激烈。如何提高企业管理者、企业员工的文化素养和管理水平,搞好企业文化建设,对于企
目的合成新型载体材料甲氧基聚乙二醇-胆固醇,并对其胶束成型工艺和毒性进行系统研究,为其作为药物载体提供参考。方法丁二酰化胆固醇与聚乙二醇单甲醚通过酯键偶联,合成甲氧
经济全球化的不断推进,推动了我国农业经济的发展,也深远的影响了农业利用外资的发展模式,主要体现在对外国直接投资的引入与利用。本文基于产业安全的视角,集中于在农业产业
在我国教育信息化的进程中,大部分高校都拥有自己的网络中心和计算中心,并且巨资购买基础硬件设施、教育网带宽、系统平台、软件程序、信息资源等,以期推进信息化应用。但是,对于
越来越多的政府部门开始意识到绩效考核作为人力资源管理的重要工具和核心内容,对于整合政府部门的人力资源,提高绩效管理的水平有重要作用,是提高政府部门的服务水平和服务质量
中國早期詩體的生成與音樂有直接關係,五言詩也不例外。它是由一個對稱音步與一個非對稱音步組成的詩行,且對稱音步在前,非對稱音步在後。這是在四言體和楚辭體之後形成的一