论文部分内容阅读
人脸表情识别作为计算机视觉领域中的一个重要研究课题,大多数的研究往往聚焦于以单帧表情图像作为研究对象的静态人脸表情识别任务中。然而,人脸表情作为一个动态变化过程,单帧人脸表情图像无法完整地捕捉人的情感变化。与之相比,表情视频或表情图像序列由于包含丰富地与表情变化相关的纹理信息和运动信息,可以较为完整地表达人的情绪变化过程。因此,基于图像序列的动态人脸表情识别研究具有重大的研究价值。本文的主要研究工作和创新点如下:1.深入研究了人脸表情的区域特征提取问题。针对不同表情运动在脸部的不同区域具有不同的结构和纹理信息,在使用卷积核提取特征时,对不同的局部区域应该使用不同的卷积核处理。具体而言,我们设计了一种多尺度区域特征学习模块,并在自然场景下的人脸表情数据集上进行了验证,多尺度区域学习模块的添加确实有助于提升模型对表情特征的表征能力。2.本文提出了一种基于异构网络融合的动态人脸表情识别算法。解决了3D卷积神经网络直接对表情序列提取特征存在冗余和噪声干扰导致识别率低的问题。该算法集成了两种网络模型:3D时空网络和静态网络,前者直接以表情序列作为输入,用于提取相邻帧之间连贯的时空信息;后者以表情序列的关键帧为输入,用于提取静态特征,再通过模型融合,进而弥补前者在提取序列特征方面的不足,提高动态人脸表情识别准确率。通过在CK+和Oulu-CASIA数据集上的大量实验结果表明,本文提出的算法具有良好地识别结果。3.深入分析了本文提出的基于异构网络融合的动态人脸表情识别算法应用于实际场景中存在的问题与不足之处,继而提出了一种基于时序关系推理的动态人脸表情识别算法,算法通过对长度不一的表情序列进行稀疏采样,进而通过设计的多尺度区域特征提取网络对稀疏表情序列提取语义特征,然后创新性地使用时序关系推理模块建模稀疏表情序列的时序上下文信息,从而得到表情序列所属类别。最后的实验结果验证了算法对自然场景下的动态人脸表情识别具有良好的识别率,而且能达到实时识别。