论文部分内容阅读
视觉人机交互通过视觉采集设备对用户的行为进行获取、分析、理解以及交互反馈,使用户摆脱了交互界面与设备的局限,具有对于用户无干扰、不需要穿戴传感器、交互自然等优点,在人工智能的时代背景下具有广泛的应用价值和研究意义。肢体动作作为人最基本交互方式之一,自然、快捷、方便且传递的信息量丰富,而人手作为最高效、最灵活的肢体部位,其功能最强大,使用最广泛,在视觉人机交互中占有举足轻重的地位。精确的三维人手姿态估计能够直接用来进行人手建模、人手动作理解等。基于彩色图像的三维人手姿态估计在交互场景中具有图像光照多变、视角多变、物体遮挡和运动模糊等特点,给该问题带来挑战的同时也赋予其更大的研究意义和应用价值。本文以彩色图像的三维人手姿态估计为出发点,在合成批量模拟数据的基础上研究了基于多任务神经网络的姿态估计算法,主要包括: 1.构建了一个基于物理渲染的百万量级人手模拟数据集“PBRHand Dataset”(Physically Based Rendering Hand),为多任务的研究提供数据基础。 基于数据驱动的深度学习研究方法需要大量的数据作为训练样本,而现有的数据集具有形态单一、样本量少、标注不精确等局限,不能覆盖复杂多变的真实交互场景,严重影响了人手姿态估计算法的准确性和泛化性。本文提出了一种基于物理渲染的方法,合成海量的逼真模拟数据及其标注,弥补了现有数据集的缺陷,且为多任务神经网络的研究提供训练基础。该数据集包括2,760,000张逼真彩色图像以及相应的三种精确标注:对齐的深度标注、语义分割标注、三维关节点标注。数据来源于50个不同形状不同肤色不同年龄的人手模型,在20个随机的室内外环境下进行交互式环境光照的渲染。实验表明,基于“PBRHand”数据集的训练可以明显提升人手姿态估计算法的精度。 2.提出了一种多任务卷积神经网络的人手姿态估计算法,能够从单张彩色图中实时准确地预测人手关节的三维位置、深度信息和语义分割。 在“PBRHand”数据集的基础上,本文将深度标注信息和语义分割标注信息作为辅助的监督任务,旨在提高三维人手姿态的估计精度。已有的基于彩色图的人手姿态估计研究仅有关节位置作为驱动,还需要额外的相机视角信息和人手位置信息,经过繁琐的后续优化处理,往往造成更大的累积误差。本文首次在三维人手姿态估计研究中提出多任务的训练方法,充分发挥人手关节、深度和语义分割信息蕴含的内在关联,将其作为三个输出,有利于融合各部分的信息,有效缓解了单任务的信息缺失问题,从而得到高精度的三维姿态估计结果。本文算法的运行速度达到实时系统的要求,为45FPS(Frames Per Second),且在现有的三个公开数据集预测误差分别为:10.76mm,9.70mm和17.72mm,均为目前该方法研究中最好的精度,且超过人类手动标注数据的准确性范围(约20mm)。 3.讨论了在多任务网络中每个任务在不同位置和不同网络结构中的影响。 由于三种数据形式(关节、深度、语义分割)蕴含着不同的信息,且信息之间在某些方面具有特定的耦合性和差异性,因此不同的监督顺序和不同的网络结构往往产生不同的结果。由于“PBRHand”数据集提供了全面的数据形式,本文第一次构建了两种不同形式的多任务网络结构,分别为串行网络和并行网络,在串行网络中,讨论了不同的串行顺序对三维人手姿态估计的影响。实验结果表明,串行网络优于并行网络,将深度监督信息紧接在关节监督之前能达到所有不同顺序中最好的结果。