论文部分内容阅读
作为最经典和最成功的机器学习算法之一,Boosting自问世以来就一直被很多学者所关注。Boosting是能提高任意给定的学习算法的准确率的一类集成算法的总称。由于Boosting所显示出的优异性能,Boosting算法被广泛的应用予数据挖掘、模式识别、信息检索、医学研究等领域。因此Boosting算法及其应用成为目前国际机器学习界的研究热点之一。
本文对Boosting算法的理论和应用进行了研究,主要取得了以下一些研究成果;
(1)提出了一个基于流形学习的半监督学习Boosting算法SEMABoost。该算法能结合流形学习和Boosting算法的优点,在训练中能够有效的利用未标识样本,可采用多种监督学习的分类算法作为基本分类器。在UCI数据集上的实验表明SEMABoost的分类准确率优于AdaBoost算法和已有的效果较好的半监督学习Boosting算法ASSEMBLE。
(2)在对Boosting算法结构研究和分析的基础上,提出了一种结合LDA的Boosting改进算法LDABoost和一种结合SVM的Boosting改进算法SVMBoost,采用更有效的方法来组合各个基本分类器生成最终的集成分类器。在人脸检测和眼睛检测方面的实验表明这两个算法的分类准确率都要优于原始的Boosting算法。
(3)分析了AdaBoost算法的性能和分类间隔、过配问题和分类间隔之间的关系,给出了Arc-Gv算法效果差予AdaBoost的一个新原因,并提出了一种基于分类间隔分析的Boosting改进算法AMBoost。在UCI数据库上的实验和模式识别方面的应用都表明,AMBoost的分类准确率和容忍噪声能力都优于AdaBoost。同时由于该算法结构简单、学习速度快,因此可以被广泛的应用于各种复杂的模式识别问题。