论文部分内容阅读
传统的有监督机器学习模型为了获得好的泛化能力,需要充足的与测试样本独立同分布的有标签样本做训练。然而在很多现实应用中,这样的要求经常不能满足,于是主动学习和迁移学习方法分别被提出以克服这个问题。 一方面,当与测试样本具有相同分布的无标签样本数量充足,但样本标签稀少且不易获得时,主动学习方法能够以尽量少的标注代价获得尽量准确的学习模型。然而,主动学习方法要获得任何一个样本标签,都需要付出一定的标注代价,而且在有标签数据极少的情况下,主动学习方法的优势很有限。 另一方面,当训练集中有标签样本充足,但训练样本与测试样本的分布不同时,迁移学习方法能够将从与目标领域分布不同但相关的源领域中学习到的知识迁移到目标领域,帮助训练模型。迁移学习方法虽然不需要付出标注代价,但是由于数据分布的不同,过多地依赖源领域的数据将会导致负面迁移的结果。 本文针对上述问题做了以下工作: 第一,提出了一种融合了主动学习与迁移学习方法的机器学习框架——Active Vector Rotation(AVR)。AVR通过向量空间映射、样本权重调整等方法积极且谨慎地利用源领域的知识,帮助目标领域训练模型以及选择查询最有信息量的样本,进而以更少的标注代价训练出更准确的学习模型,同时减少负面迁移的风险。 第二,提出了一类基于样本知识的迁移学习方法,在不减少迁移到目标领域的知识的前提下,在源领域中应用主动学习方法,选择最少的能够刻画源领域分类平面信息的关键样本加入训练集,以减少负面迁移的风险,并大幅减少学习过程中的时间和空间消耗。 第三,为适应迁移学习环境下的主动学习任务,改进了传统的主动学习查询策略,以结合源领域的知识,指导学习器选择查询处于初始分类平面和当前分类平面夹角之外的更有信息量的无标签样本,避免查询冗余的目标领域样本,从而进一步减少标注代价。 第四,分析了负面迁移的问题,并提出了一种简单但高效的基于样本加权的方法,调整训练集中源领域样本和目标领域样本在训练模型过程中的重要性,以有效减少负面迁移的风险。 在模拟数据以及多种自然语言处理任务数据集上的实验结果验证了本文提出的学习框架和学习方法的有效性。