论文部分内容阅读
近年来,随着互联网上图像的急剧增长,基于内容的图像检索(Content BasedImage Retrieval)一直是多媒体内容检索领域的研究热点。按其使用的特征类型划分,它已经历从传统全局特征到局部特征,再到基于深度网络的全局特征三个阶段。传统全局特征虽然简单,但由于不能应对遮挡、裁剪、视角等局部变换,目前应用和研究均已不多,后两类技术则各有优缺点,适用于不同的应用场景。然而,为了简化检索流程,确保检索效率,它们均丢弃了空间几何信息;而已有研究成果表明,空间几何信息对图像检索的性能有重要影响,视觉特征的几何校验已成为相似图像检索不可或缺的步骤之一。本文分别研究了几何校验中的分布一致性几何校验算法和保证旋转不变性的方案,获得如下研究成果: 1.针对局部特征点分布一致性的问题,提出了区域分布相似性(Region SimilarityArrangement,RSA)几何校验算法。基于局部特征的图像检索先在图像中提取局部特征,之后构建词袋(Bag-of-Words,BoW)进行图像相似度的计算并排序。BoW完全不考虑特征点之间的几何一致性,可能导致图像间的误匹配,降低检索的性能。已有基于局部特征点空间位置关系的校验方法校验效率低。不同于传统的几何校验方法,RSA不关注特征点之间位置关系或角度和尺度的差值,它首先构建一个区域属性空间(Region Property Space,RPS),然后将特征点映射到该属性空间中生成空间关系编码。统计显示RPS的点具有显著的分布特性,可以用反二次函数拟合。实验结果表明,RSA编码匹配相比于Baseline BoW检索框架mAP平均提高32%,并且量化后的编码匹配速度更快,占用更少的内存。 2.现有的大部分几何校验算法不考虑图像旋转问题,或者基于局部特征的主方向来实现旋转不变性。但是局部特征的主方向不鲁棒,并会导致校验效果下降。卷积神经网络(Convolutional Neural Network,CNN)图像检索框架提取图像的全局特征,同样忽略了图像旋转问题。针对现有几何校验算法和深度全局特征不能解决图像旋转的问题,本文提出Main Orientation Net(MONet)对图像进行预处理,判断图像的主方向。综合考虑模型复杂度和训练、分类速度等因素,最终基于Inception思想设计了MONet的网络结构。实验表明,MONet判断图像主方向的准确率在80%以上。MONet具有良好的扩展性,可以方便地与现有图像处理任务结合。特别地,基于MONet,我们构建了一个少数民族服饰检测系统,并在两个中国少数民族数据集上进行了实验,分别达到了95%和85%的准确率。