论文部分内容阅读
随着互联网技术的飞速发展和移动设备的广泛普及,多媒体数据呈现爆发式增长的趋势。如何在大规模数据库中快速检索到查询数据的近邻变得愈发重要。哈希学习作为近似近邻检索的主要方法之一,因其在检索速度、存储开销等方面的良好性能而引起研究者的广泛关注。哈希学习大体可以分为无监督方法和监督方法两大类。相比于无监督方法,监督哈希学习方法通过引入类别标签、成对相似度关系和排序关系等监督信息,可以有效提升检索的精度,因此成为哈希学习研究的主要方向。近年来,监督哈希学习方法取得了一系列研究成果,但该领域的研究中仍存在许多不足和挑战。例如,如何在可接受的训练时间和训练存储开销的前提下,充分地利用标签信息并离散地学习样本哈希码;如何压缩大规模样本的哈希码长度,以便于进一步降低存储开销和检索时间;如何处理哈希学习算法因为参数初始化、局部最优解和参数设置不合理等带来的不稳定性,并提升哈希学习算法的精度。针对以上问题和挑战,本文对监督哈希学习方法进行了深入研究,分别从单模态哈希学习和跨模态哈希学习的角度提出了六种哈希学习模型。
首先,在单模态哈希学习方面,针对现有监督哈希学习标签利用不充分问题和短哈希检索精度低问题,本文分别提出了基于双线性映射的监督离散哈希和监督短长度哈希:
(1)针对现有哈希学习标签信息利用不充分,离散哈希学习的过程稳定性较差的问题,本文提出了基于双线性映射的离散哈希学习方法。该方法仅使用一个映射矩阵来描述哈希码与类别标签之间的相互回归关系,较好地保持了成对相似度信息,进而使学习到的哈希码更加稳定和精确。
(2)针对短长度哈希码区分能力弱,信息损失严重,检索精度较差的问题,本文提出了短长度哈希学习方法。为了获得更好的性能,该方法将鲁棒和相互回归、矩阵分解、离散优化和平衡约束整合在一起,以学习更加稳定和准确的短长度哈希码。
其次,给定一个单模态哈希学习模型,本文还提出了一种模型性能自提升方法:
(3)针对因参数设置,优化方法选择不合理等导致哈希学习容易陷入局部最优解、算法不稳定的问题,本文提出了哈希学习模型性能自提升方法,并给出了一种适用于线性哈希模型参数自优化的方法,在不增加约束项或者惩罚项的前提下,可在一定程度上提高线性哈希学习算法的稳定性,且对深度哈希的研究具有较大的参考价值。
进一步地,在上述单模态哈希学习方法基础上,结合模型性能自优化方法,本文又提出了一种增强短长度哈希学习方法:
(4)为进一步提升短长度哈希学习的性能,本文提出了一个增强短哈希学习方法,该方法从增强短长度哈希码分类能力的角度出发,采用双向映射有效地利用标签信息,并利用非对称策略将成对相似度信息嵌入到哈希码学习的过程中。此外,该方法还提出了兼顾比特平衡性约束与独立性约束的模型增强策略来进一步优化哈希码的分布。
最后,受上述单模态哈希学习算法思路的启发,在跨模态哈希学习方面,本文提出了两种跨模态哈希学习方法:
(5)针对离散跨模态哈希学习算法具有不稳定性且时间复杂度高的问题,本文提出了基于标签回归的快速离散跨模态哈希学习方法。该方法通过学习从样本标签到哈希码的仿射变换,有效缓和了中心矩问题,提高了回归的稳定性,并显著降低了算法的时间复杂度。
(6)为了进一步提升跨模态哈希学习的性能,本文提出了一个基于两步模型的跨模态哈希学习算法。该方法首先基于双线性映射来学习保相似性的哈希码表示,然后学习可以保持异构模态特征分布与语义相似度一致性的样本外扩展映射,较好地提升了跨模态检索的精度。
首先,在单模态哈希学习方面,针对现有监督哈希学习标签利用不充分问题和短哈希检索精度低问题,本文分别提出了基于双线性映射的监督离散哈希和监督短长度哈希:
(1)针对现有哈希学习标签信息利用不充分,离散哈希学习的过程稳定性较差的问题,本文提出了基于双线性映射的离散哈希学习方法。该方法仅使用一个映射矩阵来描述哈希码与类别标签之间的相互回归关系,较好地保持了成对相似度信息,进而使学习到的哈希码更加稳定和精确。
(2)针对短长度哈希码区分能力弱,信息损失严重,检索精度较差的问题,本文提出了短长度哈希学习方法。为了获得更好的性能,该方法将鲁棒和相互回归、矩阵分解、离散优化和平衡约束整合在一起,以学习更加稳定和准确的短长度哈希码。
其次,给定一个单模态哈希学习模型,本文还提出了一种模型性能自提升方法:
(3)针对因参数设置,优化方法选择不合理等导致哈希学习容易陷入局部最优解、算法不稳定的问题,本文提出了哈希学习模型性能自提升方法,并给出了一种适用于线性哈希模型参数自优化的方法,在不增加约束项或者惩罚项的前提下,可在一定程度上提高线性哈希学习算法的稳定性,且对深度哈希的研究具有较大的参考价值。
进一步地,在上述单模态哈希学习方法基础上,结合模型性能自优化方法,本文又提出了一种增强短长度哈希学习方法:
(4)为进一步提升短长度哈希学习的性能,本文提出了一个增强短哈希学习方法,该方法从增强短长度哈希码分类能力的角度出发,采用双向映射有效地利用标签信息,并利用非对称策略将成对相似度信息嵌入到哈希码学习的过程中。此外,该方法还提出了兼顾比特平衡性约束与独立性约束的模型增强策略来进一步优化哈希码的分布。
最后,受上述单模态哈希学习算法思路的启发,在跨模态哈希学习方面,本文提出了两种跨模态哈希学习方法:
(5)针对离散跨模态哈希学习算法具有不稳定性且时间复杂度高的问题,本文提出了基于标签回归的快速离散跨模态哈希学习方法。该方法通过学习从样本标签到哈希码的仿射变换,有效缓和了中心矩问题,提高了回归的稳定性,并显著降低了算法的时间复杂度。
(6)为了进一步提升跨模态哈希学习的性能,本文提出了一个基于两步模型的跨模态哈希学习算法。该方法首先基于双线性映射来学习保相似性的哈希码表示,然后学习可以保持异构模态特征分布与语义相似度一致性的样本外扩展映射,较好地提升了跨模态检索的精度。