多标记学习算法研究

被引量 : 0次 | 上传用户：hastenhe

【摘要】

：

在单标记学习中，每个样本只给定一个标记区分其类别，当这个标记只可以取两个类别之一时，就属于两类分类问题，当这个标记可以取多个类别中的一个时，就属于多类分类问题。多标记学习

【作者】

：

黄明

【机构】

：

中国科学院大学

【发表日期】

：

0年期

【关键词】

：

自动编码机特征学习多标记学习算法标记聚类栈式特征聚合

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在单标记学习中，每个样本只给定一个标记区分其类别，当这个标记只可以取两个类别之一时，就属于两类分类问题，当这个标记可以取多个类别中的一个时，就属于多类分类问题。多标记学习不同于单标记学习，在多标记学习中，每个样本可以给定一个或多个标记区分其类别。多标记学习能更好的对真实世界进行建模，因为在真实世界中，个体可能远比我们想象的复杂。例如，在文本分类中，一个新闻文档可能会同时涉及到社会，科学，体育和娱乐等多个主题;又比如，在音频检索中，一段交响乐可能会涵盖钢琴，小提琴，莫扎特，奥地利等多种信息;在自动视频标注中，一段电影片段可能与科幻，喜剧，动作和剧情等信息相关。为了能更好地找出这些个体所涉及的多种信息，最直接的方式就是赋予这些个体多个标记来表达它们所涉及的信息。研究同一个样本可以有多个标记的分类问题的形式化方法就是多标记学习[TK09]。　　正是由于多标记学习能解决真实世界中更加复杂的问题，比如多媒体分类，基因和蛋白质的功能预测，社交网络挖掘等，多标记学习在近年来成为了非常热的研究领域，吸引了越来越多的学者来研究这个领域。多标记学习的研究可以从两个方面考虑，特征学习和标记相关性。自动编码机是一种有效的无监督特征学习方法，这里使用包含两个编码层的自动编码机(Autoencoder)对多标记数据进行特征学习，提出了一种半监督的基于自动编码机的多标记学习算法;在多标记学习中，标记可以用向量表示，从而形成标记的特征表示，因此可以利用聚类方法对标记进行聚类，提出了一种基于标记聚类的多标记学习算法;在自动编码机学习特征的基础上，进而将数据的标记的预测值作为增广特征聚合到原始特征中，提出了基于栈式特征聚合的多标记学习算法。　　论文的具体创新成果如下:　　提出了一种半监督的基于自动编码机的多标记学习算法。自动编码机是一种无监督的特征学习算法，自动编码机通过重构误差最小化来进行特征学习，尽可能地在输出层复现输入层的特征，从而在隐藏层学习到原始特征的良好低维表示。利用自动编码机进行特征学习，自动编码机可以充分利用标记的和未标记的数据进行学习，同时，使用多类回归模型引入标记信息，多类回归模型利用标记数据进行训练。自动编码机和多类回归模型联合优化，在进行多标记学习的同时指导特征学习，以学习出最有利于分类的特征。将单个编码层的自动编码机扩展为两个编码层，这样自动编码机和多类回归模型共享标记信息，从而提高模型效果。实验表明，该算法具有优越的标记排序和标记预测效果。　　提出了一种基于标记聚类的多标记学习算法。多标记学习的特点是每个样本可能具有多个标记，每个样本的标记可以用向量来表示。引入两层的树状结构，将标记分为元标记和实际标记两层。在元标记层对实际标记进行聚类，将具有相同语义的标记聚到相同的类中，然后对标记的聚类进行多标记学习，最后对标记聚类中的实际标记进行多标记学习。预测时先从第一层遍历，预测样本的元标记，然后在第二层预测样本的实际标记。该算法降低了多标记学习的复杂度，对标记较多的数据具有明显优势，实验表明，该算法具有和其它基准算法一致或者更好的效果。　　提出了一种基于栈式特征聚合的多标记学习算法。对于原始的数据，使用自动编码机和多类回归进行多标记学习，可以得到对原始数据的标记的概率估计。在多标记学习中，这些标记的概率估计可以作为新的特征聚合到原始特征后作为增广的特征，从而将标记之间的相关性嵌入到原始特征中。此时，可以利用栈式结构，再进行一轮的多标记学习，最后将第二轮训练和预测的结果作为最终的结果。在自动编码机和多类回归模型构成的多标记学习框架基础上使用栈式特征聚合提高了原有模型的效果。实验表明，该方法对原有模型的效果进行了提升。

其他文献

电子商务中的安全协议及算法的研究

随着计算机网络技术的进一步发展，建立在网络基础上的商业运行模式--电子商务逐渐成熟与完善，并随全球经济一体化进程的加快，在世界范围内日渐得到普及。与传统的商务模式相比，电

学位

电子商务安全电子交易协议AES加密标准椭圆曲线密码体制

支持动态BPR的适应性工作流管理系统研究

BPR(业务过程重组)是90年代发展起来的,旨在通过建立高效优化的业务流程而全面改善产品生命周期的T、Q、C理论和技术.该文通过发展传统BPR理论并结合并行工程的思想,提出动态

学位

业务过程重组BPR工作流管理系统企业工作流建模工作流模型校验并行工程

基于内容的图像检索技术的研究与系统实现

随着多媒体技术、网络技术的迅速发展，图像信息的应用日益广泛，对规模越来越大的图像数据库、可视信息进行有效的管理成为迫切需要解决的问题，基于内容的图像检索是解决这一问题

学位

基于内容的图像检索图像数据库颜色特征图像检索代表色

分布式文件系统海量小文件元数据访问优化技术研究

海量小文件访问应用场景已经广泛存在，具有高比率高并发同步元数据访问与随机小粒度IO数据访问的两个本质特点，给当前分布式文件系统带来了降低访问延迟和提高存储效率的挑战。

学位

海量小文件元数据访问元数据更新分布式文件系统

移动智能网业务生成环境（SCE）的研究与设计

移动智能网是叠加在原有移动网络上的业务网,用于提供各类智能数据业务.SCE是移动智能网中的一个实体,用于定义、开发、测试在智能网中所提供的新业务.该文总结了作者研究生

学位

业务生成环境移动智能网业务开发业务测试

基于XML的异构数据库间数据转换的研究与构件开发

一个功能完善的企业电子商务(e-Business)信息系统系统，不仅要有内部的电子数据交换，也要有与贸易伙伴之间准确无误的电子数据交换，才能充分发挥MIS系统高效、准确、及时的优势

学位

XML数据交换Web数据库软件复用构件技术

键值存储系统的压实优化：单文件压实

键值存储系统(Key-Value Store)通过允许硬盘上保留多个版本的数据来提供高速的写操作。其中旧版本的数据由键值存储系统提供的压实(Compaction)操作来删除。目前流行的压实

学位

键值存储系统大数据处理多文件压实单文件压实

基于对比环境的铁路信号监控软件安全测试方法的研究与应用

随着科学技术的不断进步和电子与计算机技术的迅速发展,铁路信号联锁软件也由继电器联锁向计算机联锁过渡,并逐步走向成熟。在计算机联锁系统中,联锁关系用联锁软件实现。但

学位

联锁软件安全性铁路信号黑箱对比环境

基因组二、三代测序数据联合拼接算法研究

测定基因组序列可以帮助人类认知生物体的生命规律，从而对农业，医学，环境等领域产生深远的影响;然而受限于测序技术，测序仪每次只能读出基因组上的一个短片段，而不是一次读出完整

学位

基因组序列拼接简化图生物信息学联合拼接算法

面向试验数据的知识图谱构建与实体对齐研究

学位

多标记学习算法研究

其他学术论文