论文部分内容阅读
云计算是在网格计算基础之上发展起来的一种新型的商业计算模型,近年来逐渐成为全球各大IT巨头热炒的概念。它能够提供动态资源池、虚拟化和高可用性的计算平台。云计算的发展给数据挖掘技术的发展带来了新的挑战和机遇。云计算可以使用大量的廉价计算机通过集群来代替价格高昂的服务器,大大降低了计算成本。HADOOP是一个用于构建云平台的Apache开源项目。使用HADOOP框架有利于我们方便、快速的实现计算机集群。在HADOOP平台上,采用了HDFS (分布式文件系统)来实现超大文件的存储和容错,使用了Map Reduce的编程模式来进行计算。将HADOOP运用到数据挖掘,一个关键的问题就是如何实现将传统的数据挖掘算法实行并行化。对于传统的数据挖掘算法,结合算法自身的特点,我们需要深入研究才能发现它是否能够并行。对于能够并行实现的算法,结合Map Reduce编程模式,我们可以将其移植到HADOOP平台上,从而高效的、并行的完成各种数据挖掘任务。强局部加权回归算法和Logistic回归分析越来越多的被用来预测,强局部加权回归算法由于其相对于一般的线性回归技术要快,而且提供的是一种万能的曲线拟合,不管对于多么复杂的曲线都能进行拟合,训练的速度快、学习复杂的目标函数、信息不易丢失都是其优点;Logistic回归分析在统计上是基于一个或者多个变量来预测一个明确的结果的回归分析,本文首先详细的介绍了云计算和HADOOP平台的核心架构以及运行机制。然后结合传统的数据挖掘系统提出了基于HADOOP的数据挖掘平台的技术架构。最后对于传统的强局部加权回归算法进行改进并且在HADOOP平台上对Logistic回归MapReduce化,通过实验证明了该方法的有效性。