论文部分内容阅读
基于视觉的手势识别是人机交互领域中的一个研究热点。然而实际场景中存在光照剧烈变化、复杂背景等问题,如何设计高效鲁棒的手势识别算法是一个难点问题。本文主要研究复杂背景下的手势识别方法。手势分割是手势识别的一个关键步骤,经典的基于阈值的肤色分割模型对复杂环境没有很好的鲁棒性,基于高斯模型的肤色分割方法时间复杂度比较高,很难达到实时性要求。为此,本文提出一种联合运动和肤色分割的手势识别方法,结合运动分割和肤色分割方法对于手势区域进行有效分割。采用YCbCr和HSV两种肤色分割结合的方法分割出肤色区域,并运用背景差分的运动分割方法过滤出类似肤色区域,得到一个粗略的手部轮廓位置。特征提取部分采用梯度直方图(HOG)和Hu矩特征融合的方式,Hu矩特征对旋转、平移和尺度的不变性弥补了 HOG特征本身对旋转角度的不敏感性,最终将得到的手势区域图像放入分类器进行识别,实验结果验证了该算法对变形幅度较小手势具有较好的识别性能。上述手势识别方法在实时检测时需要手有一定幅度的运动,在一些复杂环境下手的分割效果还不是很理想,主要原因在人工设计HOG、Hu矩等特征提取方式,对较大手势变形和旋转还是没有体现出来很强的识别能力。利用深度学习方法的端到端学习能力,本论文提出基于Faster R-CNN的手势识别方法,采用区域卷积神经网络的思想,设置7层网络框架,将自己建立的8类手势数据库在Faster R-CNN模型框架下训练网络层参数,调节mini-batch正负样本比例、base_size大小,和nms后候选框区域个数成功检测出较小目标手势。实验表明,基于Faster R-CNN的手势识别方法对于实时在线检测有很好的鲁棒性。