论文部分内容阅读
在单标记学习中,每个样本只给定一个标记区分其类别,当这个标记只可以取两个类别之一时,就属于两类分类问题,当这个标记可以取多个类别中的一个时,就属于多类分类问题。多标记学习不同于单标记学习,在多标记学习中,每个样本可以给定一个或多个标记区分其类别。多标记学习能更好的对真实世界进行建模,因为在真实世界中,个体可能远比我们想象的复杂。例如,在文本分类中,一个新闻文档可能会同时涉及到社会,科学,体育和娱乐等多个主题;又比如,在音频检索中,一段交响乐可能会涵盖钢琴,小提琴,莫扎特,奥地利等多种信息;在自动视频标注中,一段电影片段可能与科幻,喜剧,动作和剧情等信息相关。为了能更好地找出这些个体所涉及的多种信息,最直接的方式就是赋予这些个体多个标记来表达它们所涉及的信息。研究同一个样本可以有多个标记的分类问题的形式化方法就是多标记学习[TK09]。 正是由于多标记学习能解决真实世界中更加复杂的问题,比如多媒体分类,基因和蛋白质的功能预测,社交网络挖掘等,多标记学习在近年来成为了非常热的研究领域,吸引了越来越多的学者来研究这个领域。多标记学习的研究可以从两个方面考虑,特征学习和标记相关性。自动编码机是一种有效的无监督特征学习方法,这里使用包含两个编码层的自动编码机(Autoencoder)对多标记数据进行特征学习,提出了一种半监督的基于自动编码机的多标记学习算法;在多标记学习中,标记可以用向量表示,从而形成标记的特征表示,因此可以利用聚类方法对标记进行聚类,提出了一种基于标记聚类的多标记学习算法;在自动编码机学习特征的基础上,进而将数据的标记的预测值作为增广特征聚合到原始特征中,提出了基于栈式特征聚合的多标记学习算法。 论文的具体创新成果如下: 提出了一种半监督的基于自动编码机的多标记学习算法。自动编码机是一种无监督的特征学习算法,自动编码机通过重构误差最小化来进行特征学习,尽可能地在输出层复现输入层的特征,从而在隐藏层学习到原始特征的良好低维表示。利用自动编码机进行特征学习,自动编码机可以充分利用标记的和未标记的数据进行学习,同时,使用多类回归模型引入标记信息,多类回归模型利用标记数据进行训练。自动编码机和多类回归模型联合优化,在进行多标记学习的同时指导特征学习,以学习出最有利于分类的特征。将单个编码层的自动编码机扩展为两个编码层,这样自动编码机和多类回归模型共享标记信息,从而提高模型效果。实验表明,该算法具有优越的标记排序和标记预测效果。 提出了一种基于标记聚类的多标记学习算法。多标记学习的特点是每个样本可能具有多个标记,每个样本的标记可以用向量来表示。引入两层的树状结构,将标记分为元标记和实际标记两层。在元标记层对实际标记进行聚类,将具有相同语义的标记聚到相同的类中,然后对标记的聚类进行多标记学习,最后对标记聚类中的实际标记进行多标记学习。预测时先从第一层遍历,预测样本的元标记,然后在第二层预测样本的实际标记。该算法降低了多标记学习的复杂度,对标记较多的数据具有明显优势,实验表明,该算法具有和其它基准算法一致或者更好的效果。 提出了一种基于栈式特征聚合的多标记学习算法。对于原始的数据,使用自动编码机和多类回归进行多标记学习,可以得到对原始数据的标记的概率估计。在多标记学习中,这些标记的概率估计可以作为新的特征聚合到原始特征后作为增广的特征,从而将标记之间的相关性嵌入到原始特征中。此时,可以利用栈式结构,再进行一轮的多标记学习,最后将第二轮训练和预测的结果作为最终的结果。在自动编码机和多类回归模型构成的多标记学习框架基础上使用栈式特征聚合提高了原有模型的效果。实验表明,该方法对原有模型的效果进行了提升。