论文部分内容阅读
图像特征表示是计算机视觉的重要研究内容,在视觉数据检索、自动驾驶、拷贝视频检测等领域有着广泛应用。随着大数据时代的到来,视觉数据呈爆炸性增长趋势,迫切需要通过图像特征表示方法,对海量的视觉数据中的语义信息针对不同应用构建精细的特征表示和理解。这种迫切的需求促使了传统机器学习方法的变革,深度学习技术也应运而生。本文结合视觉数据的层次化表示框架,在深度神经网络框架下,针对不同应用背景下图像特征表示技术中存在的不足提出了不同模型。本文将图像特征表示方法研究按照不同应用背景分解为三个研究问题:图像块级特征表示,图像级特征表示以及图像序列特征表示。具体地,本文的主要创新点及取得的研究成果包括:(1)提出了一种基于多尺度特征聚合的图像块级特征表示模型。现阶段的深度图像块级特征表示大多基于深度网络框架,但由于CNN网络结构模型约束,使得基于学习的特征描述子在尺度问题上表现不佳。受骨架检测和物体检测在处理物体多尺度问题上解决思路的启发,本文利用CNN网络结构不同层的特征图对应不同大小感受野的特点,提出对网络多个不同尺度的特征图进行融合学习来有效地整合不同尺度、不同层次的特征,从而构建具有较强尺度鲁棒性的图像块级特征表示模型。首先利用CNN对单个图像块信息进行编码,然后通过批量数据建造方式来建立图像块之间的匹配和约束关系,以此来学习具有强表达能力和强鲁棒性的特征描述子。在实验阶段,本文提出的模型分别在图像块匹配、图像检索、宽基线三维影像等多个数据集及对应的评价指标下进行评测,实验结果表明本文提出的模型在显著提升描述子的描述能力同时,具有了较强的尺度鲁棒性。(2)提出了一种基于局部二值的旋转不变图像级特征表示模型。卷积神经网络在计算机视觉领域取得了前所未有的成功,但它们仍然面临着如何使用较少的参数情况下,有效处理物体方向变换问题。在本文中,我们提出了一种新的卷积模块,局部二值方向模块(LBoM),它利用局部二值卷积滤波器和主动旋转滤波器来有效地处理目标的旋转变化,网络中参数量更少。LBoM可以自然地插入到当前最有效的CNN模型中,并将它们升级为旋转不变局部二值卷积神经网络结构(RI-LBCNN)。RI-LBCNN可以基于现有的网络优化算法,以端到端的方式进行网络训练,并完成图像分类任务。在四个标准数据集上的大量实验结果表明,RI-LBCNNs可以使用较少的网络参数来完成图像分类任务,并且在处理具有较大旋转变化的图像时性能显着优于LBCNN方法。(3)提出了一种基于CNN的图像序列特征表示,并与图序列匹配算法结合构建了一种拷贝视频检测模型。现阶段拷贝视频检测算法大多采用传统手工设计特征,非常依赖手工特征设计者的领域知识和经验。本文介绍了一种基于深度CNN的图像序列特征表示方法,并结合图序列匹配算法构建基于内容的拷贝视频检测框架模型。首先,采用深度CNN特征来对视频数据中图像序列的视觉内容进行编码,用来保持图像帧级别的辨别能力。通过计算图像序列深度CNN特征之间欧式距离,得到帧之间的相似性,本文提出了一种基于关键帧的拷贝检索方法。该方法在不建立关键帧索引的前提下,可以从大型关键帧数据库中检索到候选拷贝关键帧。此外,基于视频数据的时序一致性约束,本文采用基于图的序列匹配算法来获得拷贝视频片段并对拷贝视频片段进行准确定位。实验结果表明,本文提出的深度CNN图像序列特征表示算法具有很强的辨别能力,也验证了本文提出的拷贝视频检测算法的有效性。