基于抽样技术的高效大数据挖掘研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:pplhome
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网、社交网络、物联网等技术和应用的兴起,全球数据存储量呈现爆炸式增长,大数据时代已经来临。大数据给数据挖掘带来了新的挑战,绝大部分数据挖掘技术都来自机器学习领域,当前,大多数机器学习算法是内存驻留的算法,通常假定数据量很小。大规模数据集的出现使得有些原本有效的机器学习算法在处理这样的数据时遇到许多新问题,亟待进一步研究加以解决。本文认为大数据挖掘研究可以着眼于四类算法:(1)基于大数据分布的算法;(2)能反映大数据分布的抽样算法;(3)高效并行的数据挖掘算法;(4)反映全量特征的数据挖掘算法。  本文主要研究面向大数据的高效数据挖掘算法,围绕如何把大数据变小的思路,侧重于(1)基于大数据分布的算法,通过经验分布逼近真实分布,即基于统计学领域的重抽样技术,设计有效的、可伸缩的大数据挖掘算法,以提高针对大规模数据集挖掘的效率,解决挖掘过程中的内存瓶颈问题以及提高挖掘结果的质量。此外也关注(2)能反映大数据分布的抽样算法,根据分布知识对大数据进行抽样,获得极小样本集,挖掘出全量特征,为后续使用复杂精准的挖掘方法和模型做铺垫。取得的主要成果包括:  1.面向大数据基于Bootstrap的可伸缩聚类算法。Bootstrap提供了一种简单强大的改善聚类质量的方法。但是,在处理大数据集时,现有基于Bootstrap的聚类模型会导致过高的计算量以及内存瓶颈问题。为此,提出一种面向大数据的基于小自助包的聚类模型BLBC(Bag of Little Bootstraps Clustering),该模型利用小自助包重抽样技术来实现稳健而有效的聚类。本研究经验性地探究了BLBC的性能特点,对比了与已有方法在模拟数据和真实数据上的实验表现。实验结果表明BLBC具有更显著有利的计算属性,并且保持良好的统计正确性。此外,Hadoop集群上的并行性能实验表明BLBC具有良好的可伸缩性,具备处理大数据的能力。  2.面向大数据的极限学习机集成学习方法。极限学习机(Extreme LearningMachine)是一种简单高效的单隐层前馈神经网络,具有学习速度快且泛化性能好的优点。然而,单个极限学习机的分类性能具有不稳定性。基于Bagging的极限学习机集成分类器可以明显地提高分类准确率,但其在处理大数据集时的计算量过高。针对此问题,结合极限学习机和小自助包这两个算法的优点,提出一种面向大数据的极限学习机集成分类器b-ELM,该模型具有比基于Bagging的极限学习机集成分类器明显更好的空间属性和计算属性,预测精度更高、更稳定,适合于大数据环境下的云计算平台。  3.基于特征重抽样的海量高维数据分类方法。由于高维数据存在特征的冗余性,采用传统的分类器集成算法解决其分类问题时,将导致基分类器的预测精度下降以及差异性减小,影响算法的整体分类性能。提出一种基于小自助包策略和随机子空间方法(Random Subspace Method)的高维数据集成分类模型。该模型能够减小训练集的特征维度,解决高维数据中存在的“维数灾难”问题,减少冗余特征对算法整体分类性能的影响,而且能有效地降低计算复杂度以及提高算法的稳定性。此外,并行性能实验表明该模型具备处理海量高维数据的能力。  4.分布一致的大数据抽样研究。为了从数据集中选出最具代表性的子集,提出一种基于超曲面的并行抽样算法PSHS(Parallel Sampling method based onHyper Surface),该算法根据分布知识对数据集进行抽样,依据分类超曲面算法HSC中极小覆盖子集的概念获得极小样本集。PSHS算法基于MapReduce编程框架实现。实验结果表明,PSHS算法在保持分布一致的情况下,极大地减小了数据集的规模,这对于获得数据集的内在结构是十分有用的。此外,PSHS算法能够适应数据规模的增大,随着集群计算节点的增加,能够有效地节省计算时间,具备处理大数据的能力。
其他文献
近年来,随着民航运输的高速发展,空中交通拥堵和航班延误现象日益突出,对空管系统带来了前所未有的压力和挑战。为了支持航班协同运行控制,促进空管单位、航空公司、机场等单
近年来,计算机网络和计算机技术迅猛发展,多媒体通信领域的研究得到了广泛关注。同时,由于各种多媒体通信协议的出现,使得不同协议之间实现互联互通愈加困难,通信协议的融合已逐渐
近年来,随着移动终端的不断普及,人们利用移动终端访问或存储的信息越来越丰富,如何让用户实时、便捷地搜索移动设备上浏览或存储的内容,成为了一个越来越重要的任务。由于内
网络测试是评估网络性能、定位网络故障和优化网络系统的有效手段。流量回放在网络测试中发挥着重要作用,能够快速实现真实网络场景的重现,从而完成对网络设备及系统的测试。回
无线传感器网络是由大量低成本传感器节点,以多跳自组织形式构成的无线网络,用来监测目标区域内的敏感信息。同传统有线网络相比,无线传感器网络工作环境恶劣、无人值守且能
随着现代社会的高速发展,桌面应用程序的弊端日益显现:版本升级要求、环境重复部署、资源不可共享等等。C/S的架构已经不能满足人们的需求,特别是对于开发者而言,移动办公、资
学位
网络协议的创新是网络发展的催化剂,但是随着信息化社会的发展网络数据激增,网络实验的成本越来越高,网络协议的开发难度也越来越大。如何使网络实验可靠可控是目前面临的巨大难题。本课题涉及的网络实验床集成了成熟的开源云计算架构OpenStack、网络虚拟化Open Flow等先进技术,让网络协议实验者和开发者拥有高度仿真的实验基础设施和可视化的用户图形界面。网络实验床主要分为实验设施、实验服务、身份验证授
随着互联网技术的高速发展,传统的VoIP应用在信令面和媒体面均有较为成熟的解决方案,但依然无法摆脱集中式部署造成的性能瓶颈等问题。P2P技术具备较强的自组织、自容灾和动
随着集成电路和通讯技术的发展,由体积较小的无线传感器组成的无线传感网得以发展和应用。与普通的无线网络相比,无线传感器网络具有低速率、低能耗、自组织等特点,并且网络