论文部分内容阅读
现实生活中存在着很多不平衡类数据分类问题,同时计算机和互联网技术的快速发展,使得现实生活领域的数据膨胀速度异常迅猛,因而大数据时代的不平衡学习面临着更为严峻的挑战,如何快速高效地对海量不平衡数据进行分析处理,历来是数据挖掘领域的研究热点。本文首先对不平衡学习中的PAC学习模型进行了研究,针对传统PAC学习模型边界不受样本不平衡率和错误分类代价影响的问题,提出了基于代价敏感的PAC学习模型。实验结果表明,可PAC学习所需的训练样本数目随着错分代价比例的增大而增大,随着正类样本比例的减小而增大,说明了基于代价敏感的PAC学习模型的正确性和有效性。此外,针对现实生活中海量不平衡数据的分类问题,本文设计了一种基于云计算平台的代价敏感集成学习分类算法。首先Hadoop云计算平台对海量数据进行划分用于并行学习,同时结合代价敏感的思想对学习得到的基分类器进行加权集成,实现了云计算平台上的代价敏感集成学习模型。仿真实验表明该模型能够明显提高少数类的查全率,同时Hadoop的并行机制使得云平台坏境下的集成学习时间较集中式环境有大幅度的缩减,进一步提高了海量不平衡数据分类问题的学习效率。