论文部分内容阅读
语音唇动一致性分析是指通过判断说话人发音过程中唇形的动态与语音变化之间的关联度,从而判断音视频是否同时录制,来自同一个人。现有的音唇一致性分析主要针对正面采集的唇部数据进行,在实际应用中,现实场景多变的视角是不可避免的环境因素,而多视角唇部数据对音唇一致性分析的影响仍缺乏具体的研究;同时以往基于多元统计学的音唇一致性分析方法常假设音视频数据线性相关进行分析,但音视频数据间并非简单的线性相关关系,这就导致在一致性分析中容易忽略某些非线性相关数据特征,从而导致一致性分析效率难以提升。针对以上的问题,本文以多视角数据为前提条件对音唇一致性分析展开研究,论文主要工作包括以下两个方面:1.针对多视角问题,本文在循环生成对抗网络基础上,提出了一种改进的正面唇形图像重建算法。该算法在生成器网络中增加自映射检验损失,对生成器的输入和输出进行检验,保持重建过程中同域唇图的身份特征。生成器采用U-net网络结构,判别器使用马尔科夫判别器,全网络均使用上下采样方式加快模型收敛。实验结果表明,重建唇形与真实唇形在不同维度的特征保持高相关性,各视角重建唇形与真实唇形间相似性评价指标信噪比(PSNR)平均比view2view模型[50]提升约3.5%,结构相似性(SSIM)平均在7.1以上,有效实现了多视角唇形的正面化重建。2.在获得重建的正面唇形数据后,针对多元统计一致性分析存在的问题,本文结合三维卷积神经网络对音视频数据非线性相关特征和时空特征提取的优势,提出一种基于三维耦合卷积网络(3D Coupling Convolutional Neural Networks,3DCCNN)的音唇一致性分析方法。首先,该方法使用去离散傅里叶变换的梅尔倒谱系数表示语音模态数据,使用灰度唇形连续帧表示视频模态数据。然后,将两种模态数据通过不同的网络映射到同一个表示空间中进行耦合,使用对比损失优化耦合过程,同时使网络自动筛选合适的数据对进行训练。最后,使用学习到的多模态特征来评估音视频数据的一致性。在真实唇形、重建唇形和音频交叉组合五类不同的数据上实验结果表明,相比多元统计学方法在不同视角下等错误率(EER)平均下降约5%,近正面视图下降低约10%,说明本文方法具有更好的性能。