主动学习与迁移学习的融合

来源 :南京大学 | 被引量 : 0次 | 上传用户:tang355402
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的有监督机器学习模型为了获得好的泛化能力,需要充足的与测试样本独立同分布的有标签样本做训练。然而在很多现实应用中,这样的要求经常不能满足,于是主动学习和迁移学习方法分别被提出以克服这个问题。  一方面,当与测试样本具有相同分布的无标签样本数量充足,但样本标签稀少且不易获得时,主动学习方法能够以尽量少的标注代价获得尽量准确的学习模型。然而,主动学习方法要获得任何一个样本标签,都需要付出一定的标注代价,而且在有标签数据极少的情况下,主动学习方法的优势很有限。  另一方面,当训练集中有标签样本充足,但训练样本与测试样本的分布不同时,迁移学习方法能够将从与目标领域分布不同但相关的源领域中学习到的知识迁移到目标领域,帮助训练模型。迁移学习方法虽然不需要付出标注代价,但是由于数据分布的不同,过多地依赖源领域的数据将会导致负面迁移的结果。  本文针对上述问题做了以下工作:  第一,提出了一种融合了主动学习与迁移学习方法的机器学习框架——Active Vector Rotation(AVR)。AVR通过向量空间映射、样本权重调整等方法积极且谨慎地利用源领域的知识,帮助目标领域训练模型以及选择查询最有信息量的样本,进而以更少的标注代价训练出更准确的学习模型,同时减少负面迁移的风险。  第二,提出了一类基于样本知识的迁移学习方法,在不减少迁移到目标领域的知识的前提下,在源领域中应用主动学习方法,选择最少的能够刻画源领域分类平面信息的关键样本加入训练集,以减少负面迁移的风险,并大幅减少学习过程中的时间和空间消耗。  第三,为适应迁移学习环境下的主动学习任务,改进了传统的主动学习查询策略,以结合源领域的知识,指导学习器选择查询处于初始分类平面和当前分类平面夹角之外的更有信息量的无标签样本,避免查询冗余的目标领域样本,从而进一步减少标注代价。  第四,分析了负面迁移的问题,并提出了一种简单但高效的基于样本加权的方法,调整训练集中源领域样本和目标领域样本在训练模型过程中的重要性,以有效减少负面迁移的风险。  在模拟数据以及多种自然语言处理任务数据集上的实验结果验证了本文提出的学习框架和学习方法的有效性。
其他文献
POSC的技术目标是为勘探开发应用软件提供一套规范,使得按此规范建立的数据仓具有统一的数据模型,应用软件之间的数据能够平滑地流动;应用软件和数据仓具有一致的接口;应用人
软件系统投入运行之后,还常需不断更新以修正错误、增强功能、适应环境和需求的变化。传统的方式需要先关闭系统再重新部署才能实现软件的更新。但频繁重启系统可能会带来不
随着计算机处理速度和存储容量持续不断的更新和进步,越来越多的网络任务、计算任务利用虚拟化技术共享硬件资源,基于半虚拟化技术的开源软件Xen因支持多虚拟机同时隔离运行
该文主要介绍了部件化编程的基石:部件对象模型(Component Object Model COM)的内部机制及其相关技术OLE/ActiveX控件的主要工作原理.Geomedia作为新一代的GIS(Geographic In
该文以电子商务的定义、产生背景、功能以及特性开篇,介绍了电子商务的现状与发展.在此基础上阐述了电子商务应用的一个方面——网上书店,具体以电子工业出版社网上书店(PHEI
该研究课题始于1991年,其目标是研制一个实用化的工程数据库管理系统—ANGEL.该系统独创性地采用了非一范式结合面向对明特征的数据模型,从而既具备直则准确地 描述复杂对能
该文提出多媒体网络存储系统作为分布式多媒体应用的解决方案,并针对多媒体应用的特点,研究了多媒体网络存储系统中有限资源的调度问题.针对多媒体网络存储系统中数据通路上
软件复用指在新的语境中使用已有的软件资源.可复用的软件资源覆盖了软件生产周期各个阶段的产品.该文分别阐述了软件复用相关技术;软件构件技术、构架技术、领域工作、软件
移动Agent模式是一种新型的分布应用程序设计模式。与传统的Client/Server模式相比,在这种模式中,网络上传输的不再是简单的请求/响应消息,而是移动Agent的代码和状态。移动Agent
模型查询是搜索模型库找出目标模型的过程,是模型复用的未来发展趋势。对模型查询技术展开研究,提高模型查询效率,可进一步提高模型复用水平,降低软件设计和维护成本,提高软