论文部分内容阅读
情感交互的目的是通过赋予计算机识别、理解、认知人的情感的能力,从而使计算机具有更高的类人智能,提供更加自然的人机交互体验。随着计算机设备、网络摄像头等设备的普及,基于视觉通道的情绪识别成为分析用户情绪最有效的手段。 基于视觉的情绪分析依靠普通摄像头来获取交互过程中人脸表情的二维图像,然而在自然人机交互活动中,情绪表达往往辅以头部运动甚至手势变换,使得计算机捕捉到的人脸表情图像经常存在头部面外翻转、面部局部遮挡和光照变化等问题;此外对于同一种表情,不同个体之间表达表情时也呈现出一定的差异性。一个良好的情绪识别系统应该能够提取弱化类内偏差的用户无关情绪特征,具有优良的泛化识别性能,同时对各种表情图像的成像条件具有一定的鲁棒性。 目前大部分的情绪识别算法通过提取二维表情图像的纹理特征或者几何特征来进行情绪识别,这类方法大多通过人工精心设计的特征描述子来提取图像中表情相关的信息,然后利用机器学习模型对情绪特征进行分类或者回归,进而达到情绪跟踪识别的目的。当二维表情图片出现大角度的头部姿态变化时,基于二维视觉特征的情绪识别系统鲁棒性往往会大幅度降低。基于三维几何特征或者深度特征的情绪识别能够大大提升情绪识别系统的鲁棒性,但由于三维信息获取依赖于深度设备,成本高昂,一些研究者采用升维的方法用三维头部模型来拟合二维图像,正投影后获得接近正面的表情图像。但这种方法只能处理头部面内旋转,在处理稍大角度的面外翻转时,由于存在自遮挡问题,经过仿射变换后的正投影图像往往会导致部分面部信息缺失,这一定程度上限制了升维方法在实际中的应用。 基于上述问题,本文提出了一种基于生成式对抗网络的鲁棒情绪识别方法,其主要贡献有: 1.针对用升维方法矫正头部面外翻转的表情图像导致的用户面部图像缺失问题,采用基于生成式对抗网络的方法进行人脸补全,生成符合上下文语义的补全人脸。人脸补全算法可以作为现有姿态矫正算法的后续处理,共同作为表情识别的预处理步骤,与现有情绪识别系统进行集成。 2.提出了一个用于情绪识别的多任务神经网络结构,通过将表情识别和身份识别任务结合对情绪识别中由身份信息导致的类内偏差进行抑制,提取更本质的情绪特征。 基于上述算法,本文实现了一个基于生成式对抗网络的多任务鲁棒情绪识别系统,可以在较大角度头部面外翻转下进行情绪的识别与跟踪,提升表情识别的鲁棒性和准确率。