机器学习算法Boosting中几个问题的研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:jchenghai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为最经典和最成功的机器学习算法之一,Boosting自问世以来就一直被很多学者所关注。Boosting是能提高任意给定的学习算法的准确率的一类集成算法的总称。由于Boosting所显示出的优异性能,Boosting算法被广泛的应用予数据挖掘、模式识别、信息检索、医学研究等领域。因此Boosting算法及其应用成为目前国际机器学习界的研究热点之一。 本文对Boosting算法的理论和应用进行了研究,主要取得了以下一些研究成果; (1)提出了一个基于流形学习的半监督学习Boosting算法SEMABoost。该算法能结合流形学习和Boosting算法的优点,在训练中能够有效的利用未标识样本,可采用多种监督学习的分类算法作为基本分类器。在UCI数据集上的实验表明SEMABoost的分类准确率优于AdaBoost算法和已有的效果较好的半监督学习Boosting算法ASSEMBLE。 (2)在对Boosting算法结构研究和分析的基础上,提出了一种结合LDA的Boosting改进算法LDABoost和一种结合SVM的Boosting改进算法SVMBoost,采用更有效的方法来组合各个基本分类器生成最终的集成分类器。在人脸检测和眼睛检测方面的实验表明这两个算法的分类准确率都要优于原始的Boosting算法。 (3)分析了AdaBoost算法的性能和分类间隔、过配问题和分类间隔之间的关系,给出了Arc-Gv算法效果差予AdaBoost的一个新原因,并提出了一种基于分类间隔分析的Boosting改进算法AMBoost。在UCI数据库上的实验和模式识别方面的应用都表明,AMBoost的分类准确率和容忍噪声能力都优于AdaBoost。同时由于该算法结构简单、学习速度快,因此可以被广泛的应用于各种复杂的模式识别问题。
其他文献
如何在应用的开发和演化过程中适应新的需求和发展,是提高软件开发效率、保证系统稳定性的一个关键问题。领域工程针对变化性的研究范围横跨问题域至解空间,体现于软件的业务需
随着云计算时代的来临,基于基础设施服务的云计算管理平台受到了广泛的关注,而开源云平台OpenStack的产生与快速发展也正是得益于此。从最初的Austin版本到现在的最新版本Kil
随着网络技术的发展和存储技术的增强,数据传输量越来越大,人们对通信带宽的要求也越来越高,数据带宽已经成为限制系统整体性能的一个重要瓶颈.在数据的传输过程中,串行和并
伴随着企业信息化建设的不断推进以及信息化程度的不断提高,各种应用系统集成的需求越来越大。应用集成首先要面对的问题就是数据集成。如何有效地实现数据共享与集成,直接关系
当今,互联网已经成为一个事实上的信息基础设施,人们的工作、生活、娱乐等都离不开网络,这使得网络及其上层服务的性能成为人们日益关注的问题.性能评析可以帮助了解网络及应
基于J2EE的中国人寿审计管理系统内部管理子系统,是充分利用了J2EE体系结构的优点,实现了多层次、模块化、可扩展、易移植和平台独立性强的审计系统应用。 本文介绍了分布式
随着计算机网络的发展,软件工程师在构建、维护和增强高质量的分布式应用软件面临着严峻的挑战,开发者必须对许多复杂问题有深入了解,比如服务的初始化和分布、并发控制、流控制
人类长期以来一直梦想造出像人一样的机器,能够代替人去从事各种工作,成为人们日常生活中的亲密伙伴,甚至人们可以将其作为人类社会的一部分,能够像与人一样的与其进行交流。随着
机群系统已经成为当今高性能计算的主流,与传统工作站和PC机不高的资源利用率相比,机群系统需要最大化系统的资源利用率,满足用户多样化的需求,增强其可用性,以充分利用其昂贵的资
本文在综合分析基于划分的聚类方法(K 均值)和层次凝聚聚类算法各自优缺点的基础上,同时借鉴前人对算法改进的各种混合聚类方法,提出了一种聚类质量更好的改进的分阶段混合聚类