论文部分内容阅读
面部特征点定位是人脸识别、人脸表情分析、人脸动画等诸多人脸感知等应用中非常关键的一个步骤。尽管经过学者们多年的努力研究,由于姿态、表情、遮挡等因素的影响,非可控场景下的面部特征点定位仍然是一个具有挑战性的问题。本文基于深度神经网络,从模型设计和数据利用的角度出发,提出若干创新性方法提升面部特征点定位的性能。具体地,本文的主要贡献总结如下: 提出一种基于由粗到精的自编码网络的实时面部特征点定位方法面部特征点定位任务可以被形式化成学习从人脸表观到人脸形状的非线性函数这一过程。使用深度神经网络建模该非线性映射函数是一个不错的选择。简单的使用一个深度网络难以获得理想的定位结果。为此,本文提出由粗到精的自编码网络(eCFAN)方法,该方法通过级联多个栈式自编码网络(SANs)逐步获得精准的面部特征点定位结果。每一级栈式自编码网络刻画从人脸表观到人脸形状的部分非线性过程。前面的栈式自编码网络致力于快速得到鲁棒的人脸形状初始化,记作Coarse-SANs。基于人脸形状初始化,后续的SANs在更高的人脸分辨率上进一步优化面部特征点定位的结果,记作Fine-SANs。通过将不同粒度的人脸形状作为每级网络的优化目标,人脸形状的预测结果呈现出由粗到精的优化过程。不同粒度的人脸形状由人脸形状层次化聚类得到的类中心来定义。通过引入不同粒度的人脸形状作为网络优化目标,每级网络任务复杂度得到了很好的控制,从而更易于学习。考虑到Coarse-SANs仅需要根据低分辨率质量的人脸图像来获得人脸形状的大致估计,而Fine-SANs需要在足够清晰的人脸图像上进行精准的人脸形状估计,不同分辨率的人脸图像被用于级联网络的不同阶段。通过由粗到精的方法设计,测试样本定位误差的偏差和方差逐步减小,即使当训练样本和测试样本的分布存在差异时,面部特征点定位模型仍具有很好的泛化能力。实验表明,本文提出的eCFAN方法在四个具有挑战性的人脸数据集上超越了当前主流的面部特征点定位算法。此外,本文提出的方法可以实时地检测68个面部特征点。 提出一种对遮挡鲁棒的面部特征点定位方法遮挡往往会导致面部特征点定位方法的性能急剧下降。本文提出深度回归网络耦合去遮挡自编码网络的方法(DRDA)来显式地处理面部特征点定位任务中的遮挡问题。以往的研究工作中通常先预测出遮挡区域,通过不使用遮挡区域信息的方式获得定位模型对于遮挡的鲁棒性。和以往研究工作不同,本文提出的去遮挡自编码网络能够很好地恢复被遮挡区域的人脸信息,并连同未遮挡区域的人脸信息一同用于基于深度回归网络的定位模型学习。通过级联多个深度回归网络和去遮挡自编码网络,去遮挡自编码网络去遮挡的效果逐步改进,深度回归网络的定位精度也逐步提升。本文提出的DRDA方法不但可以检测特征点是否被遮挡,而且可以定位出具体的遮挡区域,并且在两个具有挑战性的带遮挡人脸数据集上取得了优于其他定位方法的结果。 提出一种对姿态、表情鲁棒的主题感知面部特征点定位方法为了解决大姿态和夸张表情下的面部特征点定位问题,本文提出一种基于主题感知的面部特征点定位方法。根据主题,将复杂的面部特征点定位任务划分成若干个简单的子任务,分而治之。根据当前定位任务的目标(人脸形状或者人脸形状的偏差)可以自动挖掘出若干与当前定位任务相关的主题。得到主题划分后,对于每个主题,建立深度自编码网络来建模从形状相关特征到目标人脸形状的变化。特定于每个主题的深度模型能够更好地刻画人脸形状和表观的细节变化,进而得到更加准确的定位结果。通过级联多个主题感知的深度网络,该方法进一步提升面部特征点定位的性能。实验表明,在三个具有挑战性的人脸数据集上,本文提出的TDA方法优于其他的定位方法。 提出一种有效利用异质数据的面部特征点定位方法在过去的几十年里,很多具有不同标注类型的面部特征点定位数据集被发布出来,比如带有68点标注的LFPW数据集和带有74点的GTAV数据集。同时使用具有不同标注类型的数据集来预测所有类型特征点的并集是一个非常有意义的研究课题(即将每个数据集上的特征点标注迁移到其他数据集上)。由于不同的数据集间分布存在差异且每个数据集没有所有类型特征点的真实标注,这个问题不是那么容易被解决。为此,本文提出了一种深度回归网络耦合稀疏形状回归网络的方法(DRN-SSR)来利用具有不同标注类型的数据集训练统一的定位模型,可以预测所有类型特征点的并集。具体地,深度回归网络用于预测所有类型特征点的并集,稀疏形状回归模型用于近似未知特征点的位置,进而指导深度回归网络的学习。在IBUG和GLF人脸数据集上的实验表明本文提出的方法可以有效地融合不同数据集的变化模式,准确地预测所有类型特征点的并集。