论文部分内容阅读
在人工智能的各个领域中,人脸表情识别具有深远的研究意义和广阔的应用价值,成为近年来情感计算和人机互动领域里的热门研究课题。表情识别技术可以从图像或者视频中运用计算机视觉等技术自动地识别人类的表情,进而感知人类的内心情感。根据研究对象的不同,表情识别可以分为静态宏表情识别、动态宏表情识别和微表情识别三种情况。近年来,深度学习在计算机视觉领域取得了显著的研究成果。在表情识别领域中,各种深度学习算法模型相继提出,表情识别的效果不断提高。几何特征能够准确描绘出人脸五官在表情发展中的运动轨迹,然而现有的表情识别研究关注于从图像或视频中提取面部纹理特征,对人脸几何特征缺少鲁棒且高效的提取方法。本文围绕着静态宏表情识别、动态宏表情识别和微表情识别三个方面,基于深度几何特征开展了人脸表情识别研究工作。首先,针对静态宏表情识别中特征提取方式单一的问题,本文提出了基于多特征融合的静态宏表情识别方法。该方法将几何特征作为图像特征的补充。在图像特征方面,设计了图像特征提取器,从静态宏表情图像中有效地提取面部纹理特征;在几何特征方面,对人脸关键点进行距离转换和特征提取等操作,提取出鲁棒且更具判别性的深度几何特征。最后,将图像特征和几何特征采用权值相加和联合训练的方式,融合两部分特征并输出分类结果。实验结果表明,多特征融合的方法相较于现有的静态宏表情识别方法,兼顾几何特征和图像特征,取得了更好的识别效果。再者,针对动态宏表情识别中难以有效利用视频和几何时空特征的问题,提出了基于时空特征融合的动态宏表情识别方法。在视频时空特征方面,该方法将视频中的每一帧作为静态宏表情识别子问题,从静态帧中提取空间特征,再使用时间特征分类器建立起空间特征间的时序关系,从而更好地从视频中捕捉表情动作并识别宏表情类别;在几何时空特征方面,通过对关键点信息进行时空距离转换和空间分组处理,提高几何特征在时空上的表达和判别能力。最后,将视频和几何时空特征进行融合并输出最终分类结果。实验结果表明,基于时空特征融合的方法取得了更好的识别精度。除此之外,相比于三维卷积神经网络和分步时空特征提取等现有方法还具有参数量小、训练速度快、接受变长的图像序列输出以及特征提取和分类过程是“端到端”的等优点。最后,针对微表情难以有效利用几何特征的问题,提出了基于显著性区域的微表情识别方法。微表情动作的产生仅发生在某些人脸区域,相较于宏表情更加需要有效地利用人脸几何特征。然而由于微表情动作幅度微小,人脸关键点不足以准确表达几何特征,为此该方法将关键点转换成显著性区域作为人脸几何特征,在微表情的识别过程中,关注于显著性区域的纹理变化,从而更好地提取出微小的表情动作。该方法首先定义了显著性区域作为几何特征的概念以及标签转换方法,进而训练显著性区域生成器,以热力图的形式定位出显著性区域的位置作为几何特征。接着,将几何特征引入到模型的识别过程中,作为激活神经元的注意力权重,使得识别模型能够更加关注于热力图所指示的显著性区域,排除无关区域对微表情识别带来的噪声,达到更好的识别效果。实验结果表明,基于显著性区域的微表情识别在各项测试指标上超越了现有方法,提取的特征相较于现有方法具有更高的判别性。