基于量化学习的大规模图像检索方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:zhx35003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网技术的快速发展,网络数据呈现出爆炸式增长的趋势。其中,图像数据由于其丰富的视觉语义信息,成为众多实际应用中的主要研究对象。对于海量的图像数据,如何快速有效地从中检索出与用户查询最为相关的图像,是大规模图像检索系统中亟需解决的问题,也是学术界与工业界共同关注的研究热点。  对于大规模图像检索系统,其核心任务在于高效地对图像提取特征,并构建相应的索引结构,以加快检索速度。基于人工设计的图像特征无法根据不同的应用场景进行相应地调整,表征能力有限;基于深度学习的图像特征虽然可以更好地针对检索任务进行优化,但是特征提取过程的计算效率较低。在图像特征数据库的索引方面,基于树型结构的索引方法在图像特征维度较高时性能退化严重,而基于量化学习的索引方法,包括基于二值编码的量化(即哈希)和基于k值编码的量化(例如乘积量化),可以有效地降低检索过程中的计算与存储开销。目前,此类方法中仍有一些重要的问题有待进一步探讨,包括乘积量化方法在大规模数据集上的训练效率、哈希函数在分布式环境下的训练方法以及哈希函数具体形式的设计等。针对上述问题,本文从量化学习的角度对大规模图像检索展开了深入研究,取得了如下研究成果:  针对乘积量化方法在大规模数据集上训练效率低下的问题,本文提出了一种基于核心集的乘积量化方法。以乘积量化为代表的一系列方法,虽然检索精度较高,但是当数据规模较大时,其训练过程中的时间与内存开销将变得难以承受。本文通过构建一个紧致而有代表性的核心集,并基于该核心集对乘积量化的参数进行优化,可以显著地降低训练阶段的计算开销,同时保持检索精度损失很小。此外,本文对核心集构建过程中的投影矩阵进行优化,解决了核心集对高维数据近似效果不佳的问题。  针对哈希方法难以在分布式环境下高效训练的问题,本文提出了一种基于分布式学习的哈希方法。数据相关的哈希方法大多假设全部训练数据均存储于单个计算节点上,但在实际应用场景中,数据采集与存储往往是在分布式网络中各个节点上同时进行的。本文提出了一种高效的分布式优化算法,可以直接基于存储在多个节点上的数据对哈希函数进行学习。首先,本文将哈希函数的学习,建模为全局字典矩阵的优化问题,从而最小化训练数据的量化误差。之后,通过引入一致性约束,该优化问题被分解为多个子问题,可在分布式环境下并行地进行求解,从而加快了哈希函数的学习速度。  针对基于双区间量化的哈希方法难以保持样本间近邻关系的问题,本文提出了一种基于多区间量化的哈希方法。哈希函数的常用形式是首先对样本特征进行线性投影,然后将投影后的每个维度划分为两个区间,分别量化为-1和1。考虑到二值编码的平衡性约束,基于双区间的量化方式会导致在数据分布稠密区域发生二值编码的突变,这不利于样本间近邻关系的保持。针对这一问题,本文提出了两种改进的量化方法,即三区间量化和无穷区间量化。通过对投影后的数据进行变换,可以在满足平衡性约束的同时,避开数据分布的稠密区域进行二值化操作,从而有效提升了哈希方法的检索精度。  针对基于深度学习的图像特征计算效率较低的问题,本文提出了一种基于量化的卷积神经网络加速与压缩方法。卷积神经网络可以提取更有表征能力的图像特征,但是特征提取过程中过高的计算开销,限制了其在计算资源相对有限的移动设备上的应用。本文通过对卷积神经网络中卷积层和全连接层的参数进行量化,可以有效地对网络模型进行加速与压缩,同时保持识别精度基本不变。本文通过最小化各层输出值的近似误差,对网络参数的量化结果进行优化,并基于逐层量化的训练方式,有效地抑制了量化后网络模型中的累积误差问题。
其他文献
随着数字化技术的高速发展,如何将数字化技术应用在数模转换中己成为研究的热点。FPGA(Field Programmable Gate Array)是一种具有强大数字处理能力的芯片,采用FPGA实现数模转
群智能算法是一种新型的最优化算法,是目前最优化理论中最为活跃的一个研究分支之一。自出现以来,已引起众多学科研究人员的关注,并在大规模复杂问题的求解中显示出强劲潜力。不
自抗扰控制算法(ADRC)是近年提出的一种非线性控制律。它不依赖于被控对象的精确数学模型,能实时估计出对象模型的摄动和不确定外扰,都归结为一个综合扰动量,并采用特殊的非线性
随着国民经济的高速发展,国内停车场建设、城市道路、高速公路越来越多,对交通,安全管理的要求也日益提高,智能交通系统(ITS,Intelligent Transportation Systems)已经成为中国,乃
在线模拟与优化技术能有效提高石化装置的生产技术水平。本论文针对精对苯二甲酸(Pure terephthalic acid,PTA)装置的两大核心反应过程——氧化反应、加氢精制反应过程,建立工
微电子技术与超大规模集成电路以及相应软件技术的高速发展,使得开发一款基于软件无线电技术的数字化接收机成为现实。相对传统的数字基带接收机以及纯硬件的模拟接收机而言,
随着柔性制造概念的普及推广,同类产品不同规格之间的快速切换以及切换过渡过程的控制、优化与故障诊断成为过程控制界的热门方向。尤其是在新规格产品投入生产之前,过程工程师
近年来,开关电源以其效率高、重量轻、体积小等优点已经在社会各个领域中得到了广泛应用。DC-DC变换器作为开关电源的核心,其控制方法的研究也成为国际国内研究的热点。传统的D
自1982年Roger C.Schank提出基于案例的推理(Case-Based Reasoning,CBR)思想以来,形成了案例知识表示、经验管理、分布式CBR、Soft CBR等技术,在医学(medicine)、法律(law)、
学位
合肥中科院强磁场中心的水冷磁体由高稳定度直流电源供电,本文的研究目的是为该电源提供新的整流方案,以减小电源输出电压的纹波。  在水冷磁体电源中,四台三相可控硅整流桥构