论文部分内容阅读
人脸表情是人类最主要的情绪表达途径,也是一种在人与人的社会交流中不可获取的非语言信号。近年来,随着计算机技术的快速发展,探索人机之间的情感互动已经成为当前研究的热门课题。为了能够准确判断人脸表情,众多研究学者提出了多种切实可行的方法,这些方法大致可以分为两类:基于传统学习的表情识别方法和基于深度学习的表情识别方法。其中,基于深度学习算法能够以“端到端”的方式自主学习数据的本质特征,已成为当前表情识别研究的主流算法。本文从优化深度学习算法的网络结构、减少冗余信息的干扰和提高特征的判别能力等方面入手,探究人脸表情的识别问题,论文的主要研究内容如下:(1)总结分析VGGNet网络的结构和特点,并提出一种改进的VGGNet网络。首先,用全局池化层取代最后的平均池化层,同时减少全连接层的个数,以减少网络的参数量;然后,添加批归一化层和DropBlock层以避免发生过拟合问题;最后,联合孤岛损失(Island Loss)和Softmax损失作为新的损失函数,以提高特征的区分度。在CK+数据库上的实验表明,该算法的识别率为95.41%,高于VGGNet网络的93.87%,证明了算法的有效性。(2)为了有效利用表情区域的信息,提出了一种基于局部特征融合的表情识别算法。该算法采用的是一种由骨干部分、分块部分、局部特征提取部分和特征融合与分类部分构成的多通道卷积神经网络。其中,改进后的VGGNet网络作为其骨干部分,用于将人脸表情图像转化为全局特征图;自定义的分块层通过利用比例变换后的分块中心和分块大小等信息,提取得到一组局部特征图;局部特征提取部分用于进一步提取各个局部特征图的特征;特征融合与分类部分用于实现人脸表情的分类。通过一系列的实验证明,相比于基于改进VGGNet网络的表情识别算法,该算法具有更高的识别率。(3)鉴于卷积层提取的特征是一种空间和通道信息的综合体,不同空间和通道位置所包含的信息在重要程度上是存在一定差异的,提出将注意力机制引入到多通道卷积神经网络中。一方面,通过通道注意力模块增强关键通道的特征并抑制含有冗余信息的通道特征;另一方面,通过区域注意力模块,自适应捕捉每个局部块的重要程度,从而降低遮挡或非表情区域特征的不利影响。在经过遮挡模拟的CK+数据库上的实验结果表明,该算法对遮挡具有较强的鲁棒性。