论文部分内容阅读
手势识别在人机交互、聋哑人教学、虚拟现实、智能家居等领域中有着重要的应用前景。目前根据获取手势数据的方法不同,可以将其分为两个不同的方向,一是基于数据手套的,另一个是基于视觉的,基于视觉的手势识别又可以分为基于带颜色手套和基于徒手的研究。其中,基于徒手的自然手势识别由于其自然性和便捷性逐渐成为了一个热点研究问题,但是受非特定人、光照、及姿态变换等因素影响,手势识别仍然是一个具有挑战性的问题。手势识别的一个关键问题是手势特征的表示与提取,目前的手势特征表示大多是基于人工定义的特征,通常需要相当多的先验知识和大量的人工调整。近年来,随着基于学习的特征提取方法性能的不断提升,深度学习方法逐渐受到众多学者的关注,进而成为目前最流行的基于学习的特征表示方法。 本文针对鲁棒的手势特征时空表示问题,融合了深度学习方法和预定义特征,通过两者互补表达动态手势的特征。具体地,结合深度学习方法中的卷积神经网络(Convolutional Neural Networks,CNN)模型对自然图像优秀的表示能力和方向直方图特征的方向特征表达优势,进行对手势特征有效表达;然后,鉴于隐马尔可夫模型(Hidden Markov Model,HMM)在手势识别领域的成功,引入HMM进行时序手势动作分类。从而提出了一种基于CNN-HOG-HMM混合模型的动态手势识别研究方法,本文主要的研究成果如下: (1)基于CNN的静态手势识别研究。鉴于CNN在自然图片识别分类中的优异性能,针对静态手势特征表达的特点,重点研究了CNN的结构和参数设置,从理论和实验上确定了面向静态手势表示的CNN架构以及相关参数设置,在两个静态手势数据库上均取得了优异的识别率。 (2)基于CNN-HOG-HMM的动态手势识别。利用CNN提取的静态手势特征具有一定的旋转不变性特点,而在动态手势表达中,同一个手形不同的运动方向表示不同的含义,为此,在动态手势序列的每一帧的表达中,除了手势的手形,还要表达其相对上下文的运动信息。因此,本文在基于CNN自动提取手势特征的基础上,融合了对旋转敏感的HOG特征,用CNN-HOG混合特征进行动态手势的帧级手势特征表达。分类阶段,引入对动态时序序列具有很好分类性能的HMM模型。这里,由于不同手势的时长不同,本文研究了自适应状态数的HMM模型。 (3)本文在自己采集的数字手势库和剑桥手势库上进行了静态手势识别实验,基于CNN模型的静态手势识别方法在两个库上分别取得了98.2%和94.1%的平均识别率。在剑桥动态手势库上进行了动态手势识别实验,基于CNN-HOG-HMM混合模型进行动态手势识别研究,取得了92.3%的平均识别率。实验证明了本文提出模型对于静态和动态手势识别的可行性和优越性。