论文部分内容阅读
人体姿态估计是指在图像中准确定位出人体各部分的位置,恢复出图像中人体姿态的过程。人体姿态估计是人机交互等领域的重要基础,是人机智能的关键技术之一,在计算机视觉领域起着十分重要作用。对于人体姿态估计存在着的一些通用问题和一些比较典型的客观问题,本文提出了对应的解决方法,主要贡献有以下三个方面:(1)提出了一种基于变形卷积网络的人体姿态估计方法,以针对人体姿态估计普遍存在的人物的尺度不同、观测角度不同、人体复杂链式结构以及部分人体受到遮挡等挑战。该方法基于多尺度自推理人体姿态估计深度神经网络,在网络前端模块中添加变形卷积层来加强整个神经网络的特征提取能力,在自推理网络模块中,对跳级连接方式进行改进。在网络前端加入的变形卷积解决了普通卷积过于依靠临近像素关系的制约,提取出有利于解决遮挡等人体姿态估计中普遍问题的特征,在自推理网络中跳级连接的改进提高变形卷积层提取出来的特征的利用效率,并通过实验验证了本方法取得了更准确的人体姿态估计的结果。(2)提出了一种基于人体结构整合的人体姿态估计方法。针对自推理网络中存在的左右对称关节点的估计结果出现混淆的问题,该方法利用由小网络估计部分关节点并按照人体结构模型整合到较大网络直至整体网络估计出全部人体关节点,在训练中采用的标记热图能量诸级增加并在网络损失函数中加入对混淆关节点的惩罚损失。按人体结构整合姿态估计的方式有助于加强关节点之间的约束避免了单独关节点出现左右混淆,惩罚损失函数使网络区分语义特征相似的左右对称关节点的能力增强,避免人体部分出现左右混淆,通过实验验证以上规避人体姿态估计中出现左右对称关节点混淆问题的措施是有效的。(3)提出一种基于目标个体注意力机制的人体姿态估计方法。针对多人姿态估计中目标个体与非目标个体之间出现关节点互混淆的问题,该方法提出使用个体注意力模块和自对抗网络模型结合的方法。个体注意力模块在自对抗网络模型对生成热图的规范作用下逐步增加区分目标个体与非目标个体的能力,增加对目标个体的注意力,减弱背景信息带来的干扰,使得整体网络成为一个注意力驱动的网络模型,精准获得目标个体姿态估计结果,通过实验验证该网络的有效性。