面向视觉交互的肢体检测研究

论文部分内容阅读

基于视觉的自然人机交互是通过视觉传感器对人体肢体交互动作进行获取、分析、理解以及交互反馈的技术，它是人机交互领域的新兴研究方向。基于用户肢体交互动作的视觉人机界面具有操作自然、快捷、方便，以及对于用户无干扰、不需要穿戴传感器、交互自然等优点。肢体检测能提供肢体的位置、方向等信息，它是基于用户肢体交互动作视觉人机界面的必备前提，该问题具有交互场景中图像光照多变、视点多样、物体形变和物体运动模糊等挑战。本文面向视觉人机交互界面的可靠肢体检测要求，研究了在视觉交互领域中两个具有代表性的肢体检测问题:可见光图像中人手检测;三维主动声呐环境中水下移动物体（主要是水下的移动人体）检测。　　1.提出了一种基于卷积神经网络的人手图像区域检测模型，本算法能够在准确检测人手位置的同时估计人手旋转信息。　　通用的物体检测方法虽然在Imagenet等数据上取得了巨大的成功，但这些方法难以处理人手检测的特殊挑战，如姿态变化多样的人手具有剧烈的非刚性形变和视角差异。本文提出一种基于多任务卷积神经网络的新型人手检测框架，在检测人手位置的同时估计人手旋转信息。提出将人手候选区域特征图旋转为标准姿态的Derotate层，它在网络内部在线执行Derotate操作，因此整个网络可以联合训练候选区域旋转信息并判断候选区域是否含有人手。我们使用Oxford hand和Egohands这两个人手检测数据库评价提出方法，实验结果表明:联合训练旋转和人手检测任务能相互促进这两个任务的精度，并且我们的方法明显之前最好的结果。在Oxford hand数据库上，本文方法在人手检测平均精度(AP)指标上(48.3％)明显优于前人提出的可形变模板方法(36.8％)、R-CNN(42.3％)、ST-CNN(40.6％)等方法;在Egohands数据库上，我们的结果(77.1％)也优于之前最好的结果(73.3％)。　　2.提出了基于三维主动声呐的水下移动物体（主要面向移动人体）检测和跟踪，本算法能够快速准确地检测水下移动物体。并在多个物体同时运动甚至相互交叉的情况下，系统仍能鲁棒地检测出各个物体，并进行跟踪。　　声呐图像由于采集设备与环境的约束，通常分辨率低、噪声大、目标边缘残缺不全，几乎不可能提取单帧下物体的外形特征，但物体在声呐图像序列中并非独立，物体运动满足运动平滑性的约束。本文提出一种全新的基于主动声呐的水下移动物体检测系统，首先利用连通区域分析得到候选区域，之后结合运动物体检测与跟踪获取一个鲁棒高效的检测算法。同时，为了处理多个物体交叉运动问题，本文采用新的图匹配算法(Graph matching)，显著减少了轨迹匹配的错误率。

其他学术论文