论文部分内容阅读
随着移动互联网、社交网络、物联网等技术和应用的兴起,全球数据存储量呈现爆炸式增长,大数据时代已经来临。大数据给数据挖掘带来了新的挑战,绝大部分数据挖掘技术都来自机器学习领域,当前,大多数机器学习算法是内存驻留的算法,通常假定数据量很小。大规模数据集的出现使得有些原本有效的机器学习算法在处理这样的数据时遇到许多新问题,亟待进一步研究加以解决。本文认为大数据挖掘研究可以着眼于四类算法:(1)基于大数据分布的算法;(2)能反映大数据分布的抽样算法;(3)高效并行的数据挖掘算法;(4)反映全量特征的数据挖掘算法。 本文主要研究面向大数据的高效数据挖掘算法,围绕如何把大数据变小的思路,侧重于(1)基于大数据分布的算法,通过经验分布逼近真实分布,即基于统计学领域的重抽样技术,设计有效的、可伸缩的大数据挖掘算法,以提高针对大规模数据集挖掘的效率,解决挖掘过程中的内存瓶颈问题以及提高挖掘结果的质量。此外也关注(2)能反映大数据分布的抽样算法,根据分布知识对大数据进行抽样,获得极小样本集,挖掘出全量特征,为后续使用复杂精准的挖掘方法和模型做铺垫。取得的主要成果包括: 1.面向大数据基于Bootstrap的可伸缩聚类算法。Bootstrap提供了一种简单强大的改善聚类质量的方法。但是,在处理大数据集时,现有基于Bootstrap的聚类模型会导致过高的计算量以及内存瓶颈问题。为此,提出一种面向大数据的基于小自助包的聚类模型BLBC(Bag of Little Bootstraps Clustering),该模型利用小自助包重抽样技术来实现稳健而有效的聚类。本研究经验性地探究了BLBC的性能特点,对比了与已有方法在模拟数据和真实数据上的实验表现。实验结果表明BLBC具有更显著有利的计算属性,并且保持良好的统计正确性。此外,Hadoop集群上的并行性能实验表明BLBC具有良好的可伸缩性,具备处理大数据的能力。 2.面向大数据的极限学习机集成学习方法。极限学习机(Extreme LearningMachine)是一种简单高效的单隐层前馈神经网络,具有学习速度快且泛化性能好的优点。然而,单个极限学习机的分类性能具有不稳定性。基于Bagging的极限学习机集成分类器可以明显地提高分类准确率,但其在处理大数据集时的计算量过高。针对此问题,结合极限学习机和小自助包这两个算法的优点,提出一种面向大数据的极限学习机集成分类器b-ELM,该模型具有比基于Bagging的极限学习机集成分类器明显更好的空间属性和计算属性,预测精度更高、更稳定,适合于大数据环境下的云计算平台。 3.基于特征重抽样的海量高维数据分类方法。由于高维数据存在特征的冗余性,采用传统的分类器集成算法解决其分类问题时,将导致基分类器的预测精度下降以及差异性减小,影响算法的整体分类性能。提出一种基于小自助包策略和随机子空间方法(Random Subspace Method)的高维数据集成分类模型。该模型能够减小训练集的特征维度,解决高维数据中存在的“维数灾难”问题,减少冗余特征对算法整体分类性能的影响,而且能有效地降低计算复杂度以及提高算法的稳定性。此外,并行性能实验表明该模型具备处理海量高维数据的能力。 4.分布一致的大数据抽样研究。为了从数据集中选出最具代表性的子集,提出一种基于超曲面的并行抽样算法PSHS(Parallel Sampling method based onHyper Surface),该算法根据分布知识对数据集进行抽样,依据分类超曲面算法HSC中极小覆盖子集的概念获得极小样本集。PSHS算法基于MapReduce编程框架实现。实验结果表明,PSHS算法在保持分布一致的情况下,极大地减小了数据集的规模,这对于获得数据集的内在结构是十分有用的。此外,PSHS算法能够适应数据规模的增大,随着集群计算节点的增加,能够有效地节省计算时间,具备处理大数据的能力。