论文部分内容阅读
多标签分类问题是指一个样本同时属于多个类别或具有多个标签的问题,是最为复杂的分类问题之一,目前已经应用于蛋白质分类、音乐归类、场景分类、多媒体对象自动标注、信息检索等多个领域。多标签学习广泛的应用需求,促使众多的研究者致力于寻求简单且高效的多标签学习算法,将集成学习用于多标签学习而得到的多标签集成学习算法,能较好地发挥集成学习优势来解决复杂的多标签分类问题。 基于连续AdaBoost算法的思想逐步展开一系列深入的研究,并结合多标签学习的理论基础和分类思路,提出了一系列的多标签集成学习算法,对各算法的设计原理、理论推导、算法流程以及算法的验证等进行了详细阐述。通过将算法应用于多个典型数据集以及实际的项目中进行实验验证,最终得出提出的算法是正确且有效的,并能取得良好的分类效果,具有较好的应用价值。本论文的主要成果和创新点如下: 第一,在连续AdaBoost算法基础上,基于统计学中的极大似然原理,提出了基于浮动阈值分类器的AdaBoost算法,该算法能克服固定分段阈值分类器对分类边界附近点分类不稳定的缺点从而提高分类准确率。针对目标可以同时属于多个类别的多标签分类问题,采用问题转换的方法,提出了一种基于浮动阈值分类器组合的多标签分类算法,该算法能得到较好的分类效果。 第二,针对具有模糊类别的分类问题进行了研究,提出了一种以拟合示例模糊置信度大小顺序为目的的集成学习算法。该算法基于连续AdaBoost算法,通过不断调整训练样本权值(分布),使新的分类器向置信度大小顺序拟合较差的样本聚焦,最终提升组合分类器对样本置信度大小顺序的拟合精度。该算法可以看作一种统一的算法框架,可简化得到单标签或多标签分类问题的集成学习算法,当用错分代价作为示例的模糊置信度,可用于解决代价敏感分类问题。 第三,针对目标可以同时属于多个类别的多标签分类问题,基于连续AdaBoost算法的思想提出了一种基于整体最优化的多标签集成学习算法。该算法能区分误检标签(分类输出多于真实标签)和漏检标签(分类输出少于真实标签),可以使两者的加权训练错误率最小化,并可以通过调整加权系数来调整学习算法的关注重点。并对该算法提出了几种不同思路的改进,得到了几种改进的多标签集成学习算法,对改进算法进行了详细的理论分析和实验验证。 第四,当标识示例的两个标签分别来源于两个标签集的多标签分类称之为标签匹配,基于连续AdaBoost算法并采用算法适应的调整思路提出了一种基于双标签集的标签匹配集成学习算法。该算法能够较好地学习到标签匹配规律从而完成标签匹配。与传统的多标签学习算法用于解决标签匹配问题相比,提出的新算法大大缩小了搜索标签空间的范围,并且学习误差仍然可以随着分类器个数的增加而降低,进而使得标签匹配分类更加快速、准确。 第五,在应用方面,将提出的多标签集成学习算法的关键技术及方法应用于自然场景图像的分类和心脏超声图像的分类中,得到了较好的分类效果。其中,结合项目的需求,心脏超声图像分类识别已在实际项目中得到了应用。