基于多任务神经网络的彩色图像人手三维姿态估计研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:shlchen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉人机交互通过视觉采集设备对用户的行为进行获取、分析、理解以及交互反馈,使用户摆脱了交互界面与设备的局限,具有对于用户无干扰、不需要穿戴传感器、交互自然等优点,在人工智能的时代背景下具有广泛的应用价值和研究意义。肢体动作作为人最基本交互方式之一,自然、快捷、方便且传递的信息量丰富,而人手作为最高效、最灵活的肢体部位,其功能最强大,使用最广泛,在视觉人机交互中占有举足轻重的地位。精确的三维人手姿态估计能够直接用来进行人手建模、人手动作理解等。基于彩色图像的三维人手姿态估计在交互场景中具有图像光照多变、视角多变、物体遮挡和运动模糊等特点,给该问题带来挑战的同时也赋予其更大的研究意义和应用价值。本文以彩色图像的三维人手姿态估计为出发点,在合成批量模拟数据的基础上研究了基于多任务神经网络的姿态估计算法,主要包括:  1.构建了一个基于物理渲染的百万量级人手模拟数据集“PBRHand Dataset”(Physically Based Rendering Hand),为多任务的研究提供数据基础。  基于数据驱动的深度学习研究方法需要大量的数据作为训练样本,而现有的数据集具有形态单一、样本量少、标注不精确等局限,不能覆盖复杂多变的真实交互场景,严重影响了人手姿态估计算法的准确性和泛化性。本文提出了一种基于物理渲染的方法,合成海量的逼真模拟数据及其标注,弥补了现有数据集的缺陷,且为多任务神经网络的研究提供训练基础。该数据集包括2,760,000张逼真彩色图像以及相应的三种精确标注:对齐的深度标注、语义分割标注、三维关节点标注。数据来源于50个不同形状不同肤色不同年龄的人手模型,在20个随机的室内外环境下进行交互式环境光照的渲染。实验表明,基于“PBRHand”数据集的训练可以明显提升人手姿态估计算法的精度。  2.提出了一种多任务卷积神经网络的人手姿态估计算法,能够从单张彩色图中实时准确地预测人手关节的三维位置、深度信息和语义分割。  在“PBRHand”数据集的基础上,本文将深度标注信息和语义分割标注信息作为辅助的监督任务,旨在提高三维人手姿态的估计精度。已有的基于彩色图的人手姿态估计研究仅有关节位置作为驱动,还需要额外的相机视角信息和人手位置信息,经过繁琐的后续优化处理,往往造成更大的累积误差。本文首次在三维人手姿态估计研究中提出多任务的训练方法,充分发挥人手关节、深度和语义分割信息蕴含的内在关联,将其作为三个输出,有利于融合各部分的信息,有效缓解了单任务的信息缺失问题,从而得到高精度的三维姿态估计结果。本文算法的运行速度达到实时系统的要求,为45FPS(Frames Per Second),且在现有的三个公开数据集预测误差分别为:10.76mm,9.70mm和17.72mm,均为目前该方法研究中最好的精度,且超过人类手动标注数据的准确性范围(约20mm)。  3.讨论了在多任务网络中每个任务在不同位置和不同网络结构中的影响。  由于三种数据形式(关节、深度、语义分割)蕴含着不同的信息,且信息之间在某些方面具有特定的耦合性和差异性,因此不同的监督顺序和不同的网络结构往往产生不同的结果。由于“PBRHand”数据集提供了全面的数据形式,本文第一次构建了两种不同形式的多任务网络结构,分别为串行网络和并行网络,在串行网络中,讨论了不同的串行顺序对三维人手姿态估计的影响。实验结果表明,串行网络优于并行网络,将深度监督信息紧接在关节监督之前能达到所有不同顺序中最好的结果。
其他文献
新形势下,全球经济一体化逐渐加强,我国的政治、经济以及社会结构等都发生了巨大的变化,企业需要相应的转变思想政治工作,丰富工作形式和内容,通过不断的发展变化来跟上激烈
董桥先生说,人生一辈子有缘遇到两三位值得敬爱的老师,当也无憾了。何其荣幸,我在北大遇见了许多学识和人品都很好的老师,潜移默化地影响了我对世界和人生的看法。如今二十多
期刊
随着计算机软硬件以及Internet信息化的高速发展,信息资源的经济价值和社会价值也越发明显与重要,计算机网络也在各行各业中得到了广泛应用,而信息系统和应用系统的核心是数
近代中国有过多次留学运动。辛亥革命前,大批爱国青年赴日,意图学习日本维新致强经验;五四运动后,大批爱国青年赴法勤工俭学,意图直接学习西方先进文化;大革命时期,不少爱国
期刊
本文分析了新时期企业思想政治工作的相关情况,包括特点、存在的问题以及措施等,希望能够起到良好的作用,以供参考.
三维场景重建是计算机视觉、计算机图形学、虚拟现实等领域一个非常活跃的研究主题。一个同时具有几何准确性和照片真实感(photorealism)的三维场景模型在数字文物、数字博物
科学技术的高速发展,人类的聪明才智日益显示出巨大的威力,但是在不可避免的自然灾害面前,人类的力量有显的软弱无力。中国西南部青藏高原东缘处于我国几个著名的地震区和地震活
学位
密云县各级党组织和广大党员干部在扎实开展保持党员先进性教育活动的过程中,从自我抓起,从岗位实际出发,通过实施“加减乘除”法不断加强和改进作风建设,树立起了良好的执
近日发布的《中国国际学校报告蓝皮书(2016)》显示,回国就业已成为当下中国留学生的主流职业选择,选择“回国创业”的比例远高于“海外创业”.rn该报告同时对中国国际学校的
期刊
DNS(Domain Name System,域名系统)是重要的互联网基础设施,通过域名解析系统将主机名映射到IP地址,网络用户实现了对各种互联网应用的访问,因此域名系统的正常运行,对用户访问网
学位