论文部分内容阅读
场景图像分类是计算机理解场景图像、识别和感知周围世界的重要途径。场景图像分类的主要任务是如何让计算机尽量按照人类认知的方式识别不同场景类别,涉及机器学习、神经心理认知和计算机视觉等多学科交叉技术,对于实现快速有效地组织、管理大规模图像数据具有重大的现实意义。由于场景所包含目标的多样性和不确定性,场景分类面临类内差异性和类间相似性两大挑战性问题。为了解决这两类问题,同时为了避免传统分类方法过多依赖图像分割、目标检测、人工标注语义等计算代价大的处理操作,本文针对语义学习以及基于语义的场景特征表示进行了深入研究,主要工作如下: 1.提出了一种隐关联语义表示的方法,旨在去掉隐语义学习时的局部图像块之间的独立同分布假设,捕获场景语义关联的自然特性。提出deep-BoW,避免了BoW传统构建方法所具有的性能低、计算复杂度高的问题。为了解决词袋特征一词多义和一义多词的语义模糊问题以及捕获场景图像中广泛存在的语义关联问题,采用logistic正态先验分布,学习隐关联语义,并将其应用于场景分类。 2.提出了一种关联主题向量的方法,旨在解决隐语义表示对于分类任务判别力弱的问题。基于Fisher Kernel理论,探索生成式模型与判别式模型的结合,提出关联主题向量,提升隐语义的判别能力。为了能让所提出的方法更适合大规模数据集,进一步给出了基于变分贝叶斯求解和吉布斯采样求解的两种关联主题向量实现策略。所提出的方法在大规模数据集上通过实验验证了其有效性,展示出其对CNN特征的较大性能提升,对基于深度特征的FisherKernel表现出巨大的潜力。所提出的关联主题向量与混合高斯系列的FisherVector一起,为图像语义表示构建了一个更加完备的生成式模型。 3.提出了一种隐目标发现的方法,旨在自适应地发掘判别性、表示性的图像区域。结合最小熵准则,提出全局到局部、局部到全局的隐目标学习方法,并且结合Fisher Vector表示进一步提升模型性能,避免了显式目标标注或者依赖大量预训练的目标检测器的庞大计算。另外,所提出的隐目标与FisherVector特征编码方法融合,得到很好的性能表现。该方法也为进一步探索场景图像语义提供了比较大的潜力。另外,所提出的隐目标发现模型被扩展到另一个计算机视觉问题,即弱监督目标检测任务,探究其泛化性。