论文部分内容阅读
近年来,随着互联网技术的快速发展,网络数据呈现出爆炸式增长的趋势。其中,图像数据由于其丰富的视觉语义信息,成为众多实际应用中的主要研究对象。对于海量的图像数据,如何快速有效地从中检索出与用户查询最为相关的图像,是大规模图像检索系统中亟需解决的问题,也是学术界与工业界共同关注的研究热点。 对于大规模图像检索系统,其核心任务在于高效地对图像提取特征,并构建相应的索引结构,以加快检索速度。基于人工设计的图像特征无法根据不同的应用场景进行相应地调整,表征能力有限;基于深度学习的图像特征虽然可以更好地针对检索任务进行优化,但是特征提取过程的计算效率较低。在图像特征数据库的索引方面,基于树型结构的索引方法在图像特征维度较高时性能退化严重,而基于量化学习的索引方法,包括基于二值编码的量化(即哈希)和基于k值编码的量化(例如乘积量化),可以有效地降低检索过程中的计算与存储开销。目前,此类方法中仍有一些重要的问题有待进一步探讨,包括乘积量化方法在大规模数据集上的训练效率、哈希函数在分布式环境下的训练方法以及哈希函数具体形式的设计等。针对上述问题,本文从量化学习的角度对大规模图像检索展开了深入研究,取得了如下研究成果: 针对乘积量化方法在大规模数据集上训练效率低下的问题,本文提出了一种基于核心集的乘积量化方法。以乘积量化为代表的一系列方法,虽然检索精度较高,但是当数据规模较大时,其训练过程中的时间与内存开销将变得难以承受。本文通过构建一个紧致而有代表性的核心集,并基于该核心集对乘积量化的参数进行优化,可以显著地降低训练阶段的计算开销,同时保持检索精度损失很小。此外,本文对核心集构建过程中的投影矩阵进行优化,解决了核心集对高维数据近似效果不佳的问题。 针对哈希方法难以在分布式环境下高效训练的问题,本文提出了一种基于分布式学习的哈希方法。数据相关的哈希方法大多假设全部训练数据均存储于单个计算节点上,但在实际应用场景中,数据采集与存储往往是在分布式网络中各个节点上同时进行的。本文提出了一种高效的分布式优化算法,可以直接基于存储在多个节点上的数据对哈希函数进行学习。首先,本文将哈希函数的学习,建模为全局字典矩阵的优化问题,从而最小化训练数据的量化误差。之后,通过引入一致性约束,该优化问题被分解为多个子问题,可在分布式环境下并行地进行求解,从而加快了哈希函数的学习速度。 针对基于双区间量化的哈希方法难以保持样本间近邻关系的问题,本文提出了一种基于多区间量化的哈希方法。哈希函数的常用形式是首先对样本特征进行线性投影,然后将投影后的每个维度划分为两个区间,分别量化为-1和1。考虑到二值编码的平衡性约束,基于双区间的量化方式会导致在数据分布稠密区域发生二值编码的突变,这不利于样本间近邻关系的保持。针对这一问题,本文提出了两种改进的量化方法,即三区间量化和无穷区间量化。通过对投影后的数据进行变换,可以在满足平衡性约束的同时,避开数据分布的稠密区域进行二值化操作,从而有效提升了哈希方法的检索精度。 针对基于深度学习的图像特征计算效率较低的问题,本文提出了一种基于量化的卷积神经网络加速与压缩方法。卷积神经网络可以提取更有表征能力的图像特征,但是特征提取过程中过高的计算开销,限制了其在计算资源相对有限的移动设备上的应用。本文通过对卷积神经网络中卷积层和全连接层的参数进行量化,可以有效地对网络模型进行加速与压缩,同时保持识别精度基本不变。本文通过最小化各层输出值的近似误差,对网络参数的量化结果进行优化,并基于逐层量化的训练方式,有效地抑制了量化后网络模型中的累积误差问题。