论文部分内容阅读
目标识别作为计算机视觉中的核心问题以及智能视频监控中的关键技术,得到了广泛的关注和重视。该技术的目标是让计算机能够智能地识别出图像中出现的物体。具体而言,在智能视频监控系统中,目标识别技术就是理解并报告摄像头获取得到的图像及其图像序列中出现的感兴趣的人,并进一步给出其身份等信息。为了实现这些目标,典型的计算机视觉算法实现主要包括训练和测试两个阶段。训练阶段,给定图像中目标数据的特征表达后,通过分类器学习得到在特征空间划分样本分布的超平面。测试阶段,根据待测样本在特征空间中和超平面模型相对位置,实现对于样本类别的预测。这样,典型计算机视觉算法性能的好坏取决于数据特征表达是否有足够区分能力,分类器学习是否能够准确划分估计出样本的真实分布。随着智能视频监控系统获取得到的数据越来越多,精确但复杂的分类器模型已经不能适用,能否学习得到一个鲁棒且具有足够区分能力的特征表达逐渐成为解决现实条件下大规模图像数据分析的关键。本文针对视频监控背景下的目标识别技术中的中层特征表达学习这一问题展开深入而又广泛的研究,具体内容涉及目标分类、多摄像机跟踪、步态识别以及多模态行为生物特征融合等方面。在本文中,主要工作和贡献有:
①针对当前无监督视觉词典的state-of-the-art方法,本文研究了图像目标分类中的快速编码过程以及有监督字典学习方法,在PASCAL VOC数据库上取得了一定的效果。
②针对当前多视角步态识别中出现的鲁棒性问题,提出了一种基于低秩稀疏编码的视角变换模型,在CASIA多视角步态数据库的困难噪声数据上取得了当前最好的性能。
③提出了一种基于L1-∞的群稀疏编码方法,在多视角步态识别以及多摄像机跟踪两个数据库上都取得了当前最好的性能。
④针对行走中产生的地面反应力和步态姿势图像序列,提出了一种基于步态和足印的人体身份识别系统,并建立公开了一个大规模的算法评测数据库。基于这个数据库,提出了一种基于CCA的级联特征融合策略,在这个数据库上的实验表明了算法的有效性。
总的说来,本文对结合智能视频监控背景下的目标识别技术中中层特征表达问题进行了深入的研究,在构建中层特征表达上作了一定的探索。