论文部分内容阅读
基于视频的人体姿势预测与跟踪,在智能视频监控和人机交互等领域中具有广泛的应用,正获得越来越多的关注。但是,由于受到高维状态空间、复杂背景、遮挡、光照变化和外观变化等因素的影响,视频中人体姿势的预测仍然是一个非常困难的问题。
本文主要研究单目视觉下人体姿势的预测和跟踪问题,涉及的具体问题包括:如何从图像中提取多种线索用于预测2D人体姿势;如何在挖掘隐变量的同时保持数据间的局部结构;如何同时得到数据的分割和噪声点;如何综合多种线索得到人体运动模型。
本文的主要贡献概括如下:
1)在大多数2D人体姿势预测中,基于颜色和形状的肢体检测被用于初始化模型,但是由于模板的局限性,肢体检测的办法只能在特定环境下使用。受到流形学习Isomap的启发,本文首先使用测地距局部最大准则来得到人体最外部关键点位置。初始化工作结束后,使用类似置信传递的方法,利用运动学限制、外观限制和角度限制,分层测算出人体其他关节点位置。其中,角度限制基于这样的假设:人体运动是非刚体运动,但是可以用刚体运动来近似局部肢体变化,所以人体剪影上角度的突然变化意味着关节点的存在,而且角度变化的越大,关节点存在的概率就越大,本文用余弦定理来建模这种概率模型。
2)在辨别式3D人体姿势预测中,回归模型学习图像特征和人体姿势间的统计关系,并将其用于预测测试图像中的人体姿势。但是,参数回归模型建立观测数据和目标数据间的单模态关系。而非参数模型过于依赖局部信息,很难扩展到高维数据,当数据维数增加时,这种算法在高维空间会遇到近邻稀疏问题。除此之外,这种基于记忆的方法需要存储所有的训练数据,以至于会大量增加空间复杂度。本丈提出一种具有非参数模型灵活性的全局参数模型,将人体姿势预测问题看作是密度函数估计问题,使用隐高斯混合回归LGMR建模数据空间的联合概率密度,并通过全局条件概率密度函数显式地得到回归函数。同时,本文使用保局投影学习目标数据的流形空间,利用其保持局部信息的特性,显式地建立原始空间和流形空间的全局双向映射。
3)针对隐高斯混合回归模型依旧存在的过拟合问题,本文提出基于变分预测的半参数回归模型VLGMR。变分分布作为真实后验分布的近似,满足一系列简化推导的条件,然后在后验分布和变分分布KL距离最小的准则下,得到对数似然比最大的预测结果。
4)典范对应分析CCA联合观测数据和目标数据的信息来寻找基矩阵,以最大化低维空间投影的相关性,但是这种方法不能保持数据的局部结构信息。而LPP等方法只能分别求取观测变量和目标变量各自的低维空间表示,不能结合两者的信息求取保持局部信息的隐含空间表示。本文提出对称局部保持隐变量模型CLPLVM,使得图像特征和姿势数据在低维空间的投影的达到最大相关性时,也能够保持数据间的局部结构信息。
5)由于视频中存在大量的时域冗余信息,视频中人体运动的建模与单张图片中人体姿势的建模有很大不同。同样的运动类型应该具有相似的隐含信息。本文通过求取图像特征和运动数据的低秩表示,从运动视频中提取字典,用字典表示每帧中运动的人体姿势,这样人体运动的矩阵表示就变成低秩矩阵表示,而且,在恢复人体运动表示的同时,还检测出原始数据的噪声点。
6)利用运动捕获数据学习人体运动模型,往往得到的结果存在泛化能力不强的问题。本文使用深层学习的同时,将图像信息融入条件受限波尔兹曼机的代价函数,通过图像信息调整人体运动模型,使预测出的人体运动更符合当前帧信息。