论文部分内容阅读
近年来,随着数码相机,可拍照智能手机等硬件的大规模普及,以及微信,微博等互联网社交媒介的爆发式发展,互联网上的每天以惊人的速度增加的图像及视频数据量带来了巨大的挑战。一般而言,可通过提取输入图像寻找用户所感兴趣的内容,传统的基于单张图像的前景目标提取方法难以满足现有视觉处理系统的需求,因此,学者们在多张图像和视频的基础上提出了协同显著性检测和协同分割的方法。这些方法能够充分利用不同图像间前景目标的相似性,因此节省了大部分操作的时间。然而,传统的方法主要通过对底层的视觉特征进行操作,忽略了图像数据集层面所蕴含的语义信息。 本文根据基于视觉场景的前景目标发现与分割算法的特性和需求,针对不同视觉场景下多种前景目标提出解决方案,所研究的内容主要包括特征提取,显著性检测和前景目标分割。主要研究内容概括如下: 首先,对基于视觉场景的前景目标发现与分割算法相关技术进行概述,围绕特征提取,图像显著性检测和图像前景分割三个关键问题介绍各种视觉场景和多种前景目标提取相关技术,对现有的方法和技术进行了回顾和分析,并对容易混淆的术语进行定义。 其次,传统的显著性区域检测方法对低层的视觉特征进行计算,在视频显著性区域检测中,这类方法忽视了物体的运动,导致对目标物体的错误检测。本文针对这种弊病,提出了基于多层次时空能量模型的视频显著性区域检测方法,通过在输入视频的全局进行检测,提高了对运动物体估计的准确率。 再次,针对传统的图像前景分割方法一般需要用户提供交互,本文提出一种基于非刚性变换对多张输入图像进行协同分割的方法。该方法首先使用局部可变形模型检测图像中可能成为前景的区域,然后通过非刚性变换和转移学习的方法将训练图像中的前景目标投影至测试图像中的相似部分,构成测试图像中的目前景目标。本文提出的方法不需要人工交互,且能够同时处理多张输入图像中的前景。 最后,本文突破了现有的协同分割方法主要面向包含前景目标的输入图像,难以处理不包含前景目标的图像的瓶颈,提出基于视觉关注度的噪声图像过滤及协同分割方法。此方法使用深度卷积神经网络训练多个物体种类的分类器,对输入图像的语义信息进行统计并根据统计结果过滤噪声图像;与此同时,此方法将过滤后的输入图像聚为多个子类,在多个子类上建立形状先验引导协同分割,在提高处理速度的同时保证了分割结果的准确。