基于Hadoop平台下回归算法的性能研究

被引量 : 4次 | 上传用户:jiushiaijiujiu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
云计算是在网格计算基础之上发展起来的一种新型的商业计算模型,近年来逐渐成为全球各大IT巨头热炒的概念。它能够提供动态资源池、虚拟化和高可用性的计算平台。云计算的发展给数据挖掘技术的发展带来了新的挑战和机遇。云计算可以使用大量的廉价计算机通过集群来代替价格高昂的服务器,大大降低了计算成本。HADOOP是一个用于构建云平台的Apache开源项目。使用HADOOP框架有利于我们方便、快速的实现计算机集群。在HADOOP平台上,采用了HDFS (分布式文件系统)来实现超大文件的存储和容错,使用了Map Reduce的编程模式来进行计算。将HADOOP运用到数据挖掘,一个关键的问题就是如何实现将传统的数据挖掘算法实行并行化。对于传统的数据挖掘算法,结合算法自身的特点,我们需要深入研究才能发现它是否能够并行。对于能够并行实现的算法,结合Map Reduce编程模式,我们可以将其移植到HADOOP平台上,从而高效的、并行的完成各种数据挖掘任务。强局部加权回归算法和Logistic回归分析越来越多的被用来预测,强局部加权回归算法由于其相对于一般的线性回归技术要快,而且提供的是一种万能的曲线拟合,不管对于多么复杂的曲线都能进行拟合,训练的速度快、学习复杂的目标函数、信息不易丢失都是其优点;Logistic回归分析在统计上是基于一个或者多个变量来预测一个明确的结果的回归分析,本文首先详细的介绍了云计算和HADOOP平台的核心架构以及运行机制。然后结合传统的数据挖掘系统提出了基于HADOOP的数据挖掘平台的技术架构。最后对于传统的强局部加权回归算法进行改进并且在HADOOP平台上对Logistic回归MapReduce化,通过实验证明了该方法的有效性。
其他文献
本文在弱势产业划分与贸易保护有效性分析的基础上,探讨新贸易保护主义的新发展及其对中国进出口贸易的影响,分析我国的战略性贸易政策选择。本文认为:是否值得与能否对弱势
《红字》是美国浪漫主义小说家和心理小说家纳撒尼尔·霍桑具有代表性的长篇小说,作品通过对海斯特这一人物形象的成功塑造,诠释了清教主义对人们精神上束缚、压制以及女主人
随着新媒体的广泛应用,自媒体时代让个人成为舆论终端,因而加强网络舆情引导,成为高校思想政治教育工作的新领域。厘清网络舆情的基本特征,把握网络舆情对高校思想政治教育工
《京都议定书》通过创新地引入"灵活机制",期望借助市场手段来高效解决环境问题,并由此形成了目前全球最具发展潜力的商品交易市场——碳交易市场。本文回顾了碳交易市场的产
社会对未来的幼儿教师充满了期望,对她们的素养和能力提出了全新的要求。作为培养幼教师资的幼儿师范学校,也遇到了前所未有的挑战。文章围绕"教学法"这门专业课程,对其发展
多年来,教育学家和教师们一直致力于外语教学法的研究。与此同时,语言学家和心理学家们也在思考一个问题:为什么一些学生在第二语言学习方面优于其他学生?从第一个外语教学法
一国对外贸易的商品结构,特别是出口商品结构决定了该国在国际分工和交换中的利益地位,因此探求促进出口商品结构优化的途径就十分必要了。金融在资本积累和配置等方面的重要
目的观察冬病夏治、穴位敷贴疗法防治小儿反复呼吸道感染的临床疗效。方法将200例反复呼吸道感染患儿随机分为2组,每组100例,分别给予抗感乳膏及安慰剂治疗。每年三伏期间敷
本文主要运用计量经济学的方法就中韩建立自由贸易区对中韩两国净出口与就业的影响进行了实证分析。实证分析主要分三步:第一步,分析了FTA的建立对两国之间净出口的影响;第二
周耀庭教授临证擅于治疗各种紫癜性疾病,尤其是对色素性紫癜性皮肤病的辨证治疗用药有独特的经验及见解。认为斑疹可分为疫疹、一般温病斑疹、杂病斑疹和皮肤病斑疹4类,提出