论文部分内容阅读
在大数据分析处理中,存在诸多问题,如数据类型多,处理效率低,从中获得有用的信息和知识以便指导后续的决策,这是机器学习的最终目标。有效学习样本逐渐增加,据此如何高效渐进地学习分类器是一个非常有价值的问题。大数据分析要求大量数据流的分布式挖掘要实时执行,设计这样独特的分布式挖掘系统:在线适应传入数据的特征;在线处理大量的异构数据;在分布式学习者之间的有限数据访问和通信能力。提出了一个基本的数据挖掘框架,并基于此研究了一种高效的在线学习算法。框架包括一个整体学习者和只能访问不同输入数据部分的多个局部学习者。通过