多标签集成学习算法的关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：shenlixi44

【摘要】

：

多标签分类问题是指一个样本同时属于多个类别或具有多个标签的问题，是最为复杂的分类问题之一，目前已经应用于蛋白质分类、音乐归类、场景分类、多媒体对象自动标注、信息检索

【作者】

：

张丹普

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2015年期

【关键词】

：

多标签分类集成学习连续AdaBoost算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

多标签分类问题是指一个样本同时属于多个类别或具有多个标签的问题，是最为复杂的分类问题之一，目前已经应用于蛋白质分类、音乐归类、场景分类、多媒体对象自动标注、信息检索等多个领域。多标签学习广泛的应用需求，促使众多的研究者致力于寻求简单且高效的多标签学习算法，将集成学习用于多标签学习而得到的多标签集成学习算法，能较好地发挥集成学习优势来解决复杂的多标签分类问题。　　基于连续AdaBoost算法的思想逐步展开一系列深入的研究，并结合多标签学习的理论基础和分类思路，提出了一系列的多标签集成学习算法，对各算法的设计原理、理论推导、算法流程以及算法的验证等进行了详细阐述。通过将算法应用于多个典型数据集以及实际的项目中进行实验验证，最终得出提出的算法是正确且有效的，并能取得良好的分类效果，具有较好的应用价值。本论文的主要成果和创新点如下:　　第一，在连续AdaBoost算法基础上，基于统计学中的极大似然原理，提出了基于浮动阈值分类器的AdaBoost算法，该算法能克服固定分段阈值分类器对分类边界附近点分类不稳定的缺点从而提高分类准确率。针对目标可以同时属于多个类别的多标签分类问题，采用问题转换的方法，提出了一种基于浮动阈值分类器组合的多标签分类算法，该算法能得到较好的分类效果。　　第二，针对具有模糊类别的分类问题进行了研究，提出了一种以拟合示例模糊置信度大小顺序为目的的集成学习算法。该算法基于连续AdaBoost算法，通过不断调整训练样本权值（分布），使新的分类器向置信度大小顺序拟合较差的样本聚焦，最终提升组合分类器对样本置信度大小顺序的拟合精度。该算法可以看作一种统一的算法框架，可简化得到单标签或多标签分类问题的集成学习算法，当用错分代价作为示例的模糊置信度，可用于解决代价敏感分类问题。　　第三，针对目标可以同时属于多个类别的多标签分类问题，基于连续AdaBoost算法的思想提出了一种基于整体最优化的多标签集成学习算法。该算法能区分误检标签（分类输出多于真实标签）和漏检标签（分类输出少于真实标签），可以使两者的加权训练错误率最小化，并可以通过调整加权系数来调整学习算法的关注重点。并对该算法提出了几种不同思路的改进，得到了几种改进的多标签集成学习算法，对改进算法进行了详细的理论分析和实验验证。　　第四，当标识示例的两个标签分别来源于两个标签集的多标签分类称之为标签匹配，基于连续AdaBoost算法并采用算法适应的调整思路提出了一种基于双标签集的标签匹配集成学习算法。该算法能够较好地学习到标签匹配规律从而完成标签匹配。与传统的多标签学习算法用于解决标签匹配问题相比，提出的新算法大大缩小了搜索标签空间的范围，并且学习误差仍然可以随着分类器个数的增加而降低，进而使得标签匹配分类更加快速、准确。　　第五，在应用方面，将提出的多标签集成学习算法的关键技术及方法应用于自然场景图像的分类和心脏超声图像的分类中，得到了较好的分类效果。其中，结合项目的需求，心脏超声图像分类识别已在实际项目中得到了应用。

其他文献

模糊人工免疫网络算法及其在数据挖掘聚类中的应用

当今科学研究呈纵横两方向发展，纵向各学科分支越来越细，越来越深入；横向各学科联系越来越紧密，把某个领域成熟的思想进入到另一领域往往能产生较好的科研成果，模拟生物系统进行科

学位

模糊人工免疫网络算法数据挖掘聚类分析

ipv4_ipv6双栈即时通信软终端研究与开发

网络通信技术发展到今天，有着辉煌的成就，它的发展使人们沟通便利，交际自由，是现代化一个重要标志。即时通信软件是人们上网交际的常用工具，使用即时通信工具能够实现与好友即时，快

学位

双栈即时通信软终端网络通信

软件演化过程中的资源管理研究

软件演化是一个程序不断调节以满足新的软件需求的过程，即是对一个已有的软件系统进行不断修改、补充和完善，以适应新的需求和环境变化的过程。软件演化已成为如今软件工程领域

学位

软件演化过程资源管理协调平衡分配调度算法

软件演化过程效率改进研究

软件演化已成为软件生存周期中最重要的形态之一，进入了软件的各个领域，成为了今天软件工程研究的热点领域。软件演化的过程表现出了明显不同于传统软件过程的特征。因此，有必要

学位

软件演化过程效率改进过程片断执行代价

基于预聚类的K-最近邻分类算法的研究

数据分类技术是数据挖掘中一种强有力的分析手段，它旨在生成一个分类函数或分类模型，由该模型把数据库中的数据项映射到某一给定类别中。现有的数据分类算法大体可以划分为两大

学位

数据分类K-最近邻算法分类算法预聚类

演化算法在分类规则挖掘中的应用

数据挖掘是从大型数据库的数据中提取人们感兴趣的知识，这些知识是隐含的、事先未知的潜在有用信息。数据挖掘技术经过十多年的发展，已经逐渐建立起系统的挖掘理论和成熟的挖掘

学位

数据挖掘分类规则演化算法遗传程序设计决策数回溯策略

一种基于数学形态学的离群点检测算法

数据挖掘是在海量的数据中提取隐含的、未知的、潜在有用的知识或信息模式的决策支持方法。在信息爆炸的今天，数据挖掘显得尤为重要。一个人的噪声可能是另一个人的信号，忽

学位

数据挖掘离群点检测算法循环数学形态学

连续与离散时间控制的多通道CSMA协议分析

随着移动通信的迅速发展，移动通信业务从传统的话音业务向以Internet接入和多媒体业务为主方向发展的趋势已经清晰可见。未来移动通信的目标在于建立一个无处不在的全IP分组数

学位

移动通信分组数据无线通信多媒体业务信道特性协议分析

基于物理的真实感图形研究与实现

真实感图形渲染是计算机图形学发展的一个重要方向，而目前的渲染技术都是基于物理的方法，通过模拟光线在场景中反射及折射反映出场景中的光照情况，从而通过计算光能来渲染出场景

学位

光线追踪加速算法光子映射真实感图形渲染图像处理

基于模型的手势跟踪及相关技术的研究

快速、准确的手势跟踪系统具有广阔的应用前景。由于特殊的穿戴式硬件造价高昂，并且设备本身还会限制自由，因此近年来，基于廉价摄像机的手势跟踪系统成为了人本界面的重要研究课

学位

手势跟踪计算机视觉加权中值滤波算法去模糊算法

多标签集成学习算法的关键技术研究

其他学术论文