论文部分内容阅读
深度学习方法在自然图像、自然语言、人脸等众多机器学习领域获得了较好的性能,且引起了学术界与工业界的广泛关注。深度学习研究的是一大类拥有多层非线性变换的模式识别系统,这些系统将数据从低往高逐层抽象,相比于浅层方法更适合于对真实世界中的高度非线性问题进行建模。
人脸表情识别是一个典型的高度非线性问题,本文围绕人脸表情识别问题,研究探索了二值神经网络、二值自编码器、二维卷积神经网络、带有视觉注意力的卷积神经网络、卷积-反卷积神经网络、三维卷积神经网络等多种深度学习方法,主要的研究工作成果概述如下:
(1)提出了基于二维卷积神经网络的人脸表情识别方法,并在此基础上研究了一种卷积特征迁移方法,虽然该网络的性能较好,但其决策不具备可解释性,而心理学将表情解释为脸部局部肌肉运动,这些运动固定地发在特定感兴趣区域内,为了研究这些感兴趣区域,以改进人脸表情识别的性能,同时从机器学习角度验证有关表情的心理学定义,本文进一步提出了基于视觉注意力的人脸表情感兴趣区域提取与人脸表情识别方法,借助基于视觉注意力的特征聚合,可放大感兴趣区域内部有效信号、抑制背景中的无效噪声,从而提高人脸表情识别准确率。
(2)人脸表情识别系统需要对人脸图像中的表情信息敏感而对身份信息保持不变,为了研究人脸表示中表情与身份两种不同成分,本文提出了由一对18层卷积-反卷积神经网络构成的系统:NET-3,将其用于表情与身份两组互补特征的提取,互补特征可应用于人脸重构、人脸合成、人脸插值、人脸表情识别与人脸身份验证。为了配合实验,还创建了LSFED大规模合成人脸表情数据集,该数据集是目前同类型中规模最大的。
(3)大多数人脸表情识别算法的识别依据是静态的人脸外观,而心理学将表情定义为人脸动作单元的组合,通过动作往往比外观能更准确地识别人脸表情,为了充分利用视频数据中丰富的动作信息,本文还研究了基于三维卷积神经网络的人脸表情动作识别方法,定义了一个完整的三维卷积神经网络基本框架,讨论了三维卷积神经网络的一般设计原则,提出了三维Gabor特征与光流特征两种三维底层特征,提出了3DCNN-A、3DCNN-B、3DCNN-C与3DCNN-D四种不同结构的三维卷积神经网络,并提出了不同特征与不同网络组合的高效的决策层融合方法,最终获得了较高的准确率。
(4)主流深度学习算法往往比浅层方法需要更多的计算资源,为了降低大型深度网络对高速处理器与大容量存储器的依赖,实现快速的实时的计算,本文研究了基于多尺度稠密局部二元模式特征、栈式二值自编码器与二值神经网络的快速人脸表情识别,以最低的硬件要求,即较少的内存和计算消耗,实现了较高的人脸表情识别准确率。
人脸表情识别是一个典型的高度非线性问题,本文围绕人脸表情识别问题,研究探索了二值神经网络、二值自编码器、二维卷积神经网络、带有视觉注意力的卷积神经网络、卷积-反卷积神经网络、三维卷积神经网络等多种深度学习方法,主要的研究工作成果概述如下:
(1)提出了基于二维卷积神经网络的人脸表情识别方法,并在此基础上研究了一种卷积特征迁移方法,虽然该网络的性能较好,但其决策不具备可解释性,而心理学将表情解释为脸部局部肌肉运动,这些运动固定地发在特定感兴趣区域内,为了研究这些感兴趣区域,以改进人脸表情识别的性能,同时从机器学习角度验证有关表情的心理学定义,本文进一步提出了基于视觉注意力的人脸表情感兴趣区域提取与人脸表情识别方法,借助基于视觉注意力的特征聚合,可放大感兴趣区域内部有效信号、抑制背景中的无效噪声,从而提高人脸表情识别准确率。
(2)人脸表情识别系统需要对人脸图像中的表情信息敏感而对身份信息保持不变,为了研究人脸表示中表情与身份两种不同成分,本文提出了由一对18层卷积-反卷积神经网络构成的系统:NET-3,将其用于表情与身份两组互补特征的提取,互补特征可应用于人脸重构、人脸合成、人脸插值、人脸表情识别与人脸身份验证。为了配合实验,还创建了LSFED大规模合成人脸表情数据集,该数据集是目前同类型中规模最大的。
(3)大多数人脸表情识别算法的识别依据是静态的人脸外观,而心理学将表情定义为人脸动作单元的组合,通过动作往往比外观能更准确地识别人脸表情,为了充分利用视频数据中丰富的动作信息,本文还研究了基于三维卷积神经网络的人脸表情动作识别方法,定义了一个完整的三维卷积神经网络基本框架,讨论了三维卷积神经网络的一般设计原则,提出了三维Gabor特征与光流特征两种三维底层特征,提出了3DCNN-A、3DCNN-B、3DCNN-C与3DCNN-D四种不同结构的三维卷积神经网络,并提出了不同特征与不同网络组合的高效的决策层融合方法,最终获得了较高的准确率。
(4)主流深度学习算法往往比浅层方法需要更多的计算资源,为了降低大型深度网络对高速处理器与大容量存储器的依赖,实现快速的实时的计算,本文研究了基于多尺度稠密局部二元模式特征、栈式二值自编码器与二值神经网络的快速人脸表情识别,以最低的硬件要求,即较少的内存和计算消耗,实现了较高的人脸表情识别准确率。