基于语义的场景图像特征表示与分类问题研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:redredlove
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
场景图像分类是计算机理解场景图像、识别和感知周围世界的重要途径。场景图像分类的主要任务是如何让计算机尽量按照人类认知的方式识别不同场景类别,涉及机器学习、神经心理认知和计算机视觉等多学科交叉技术,对于实现快速有效地组织、管理大规模图像数据具有重大的现实意义。由于场景所包含目标的多样性和不确定性,场景分类面临类内差异性和类间相似性两大挑战性问题。为了解决这两类问题,同时为了避免传统分类方法过多依赖图像分割、目标检测、人工标注语义等计算代价大的处理操作,本文针对语义学习以及基于语义的场景特征表示进行了深入研究,主要工作如下:  1.提出了一种隐关联语义表示的方法,旨在去掉隐语义学习时的局部图像块之间的独立同分布假设,捕获场景语义关联的自然特性。提出deep-BoW,避免了BoW传统构建方法所具有的性能低、计算复杂度高的问题。为了解决词袋特征一词多义和一义多词的语义模糊问题以及捕获场景图像中广泛存在的语义关联问题,采用logistic正态先验分布,学习隐关联语义,并将其应用于场景分类。  2.提出了一种关联主题向量的方法,旨在解决隐语义表示对于分类任务判别力弱的问题。基于Fisher Kernel理论,探索生成式模型与判别式模型的结合,提出关联主题向量,提升隐语义的判别能力。为了能让所提出的方法更适合大规模数据集,进一步给出了基于变分贝叶斯求解和吉布斯采样求解的两种关联主题向量实现策略。所提出的方法在大规模数据集上通过实验验证了其有效性,展示出其对CNN特征的较大性能提升,对基于深度特征的FisherKernel表现出巨大的潜力。所提出的关联主题向量与混合高斯系列的FisherVector一起,为图像语义表示构建了一个更加完备的生成式模型。  3.提出了一种隐目标发现的方法,旨在自适应地发掘判别性、表示性的图像区域。结合最小熵准则,提出全局到局部、局部到全局的隐目标学习方法,并且结合Fisher Vector表示进一步提升模型性能,避免了显式目标标注或者依赖大量预训练的目标检测器的庞大计算。另外,所提出的隐目标与FisherVector特征编码方法融合,得到很好的性能表现。该方法也为进一步探索场景图像语义提供了比较大的潜力。另外,所提出的隐目标发现模型被扩展到另一个计算机视觉问题,即弱监督目标检测任务,探究其泛化性。
其他文献
本文通过对仿真机器人远程控制系统的实现,深入研究了在基于Web3D技术开发应用时的核心技术,这些技术不但能直接嫁接到类似系统的开发中,而且拓宽了Web3D的应用领域。此系统由被
自然景物的模拟一直是计算机图形学中最具挑战性的问题之一。自然景观中飘雪的模拟,可以大大提高虚拟场景的逼真效果。雪花形态的不规则性、运动的无规律性以及受环境因素影
本文的主要研究方向是P2P网络在搜索引擎方面的应用,主要的工作是对P2P搜索技术进行研讨,具体如下: 第一,介绍传统集中式Web搜索引擎的相关知识:搜索引擎的基本概念、搜索引擎
随着网络技术的蓬勃发展和信息化建设的推进,各个行业在信息化建设中产生了大量的“应用系统”,由于各种原因,这些应用系统逻辑上独立,往往成为业务流程和数据流的信息孤岛。为此
教学网站建设的目的,就是在教与学之间的互动环节上提供一个强而有力的平台。作为辅助教学的重要手段,教学网站目前已经蓬勃的发展起来。但是,纵观现有的教学网站:结构上,存在着重
学校党建工作处于教学、科研、管理工作的最前沿,是党的全部工作和战斗力的基础,是贯彻落实党的教育方针、政策和上级党组织决定的重要保证。近年来,在上级党委的正确领导下
在保持共产党员先进性教育活动中, 胶州市充分发挥基层与群众联系直接的优势,突出“三个代表”重要思想这条主线, 通过深入实施“做群众满意的党员,创群众满意的组织,办群众
答疑系统作为网上教学的重要组成部分,发挥着答疑解惑的重要作用。近年来,对它的研究应用已经成为教育科研人员关注的热点。现有的答疑系统大多数存在着答疑方式单一;系统操作繁
塑性铰线分析模型已成功用于估计由弦杆表面屈服控制的各种管节点的强度;然而弦杆自身的轴向压力对节点承载力的影响仍然是用一个经验折减系数来考虑的.为了计算在轴向压力作
近年来,国内外各种研究机构和高等学府都展开了人脸识别技术的前沿研究和探索,不断涌现出许多新的成果,已逐步进入到应用推广阶段。现今,人脸识别算法所面临的主要挑战是:在光照、