基于正面唇形重建与三维耦合卷积网络的多视角音唇一致性分析方法研究

来源 :广东技术师范大学 | 被引量 : 0次 | 上传用户:jeffzhangjf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音唇动一致性分析是指通过判断说话人发音过程中唇形的动态与语音变化之间的关联度,从而判断音视频是否同时录制,来自同一个人。现有的音唇一致性分析主要针对正面采集的唇部数据进行,在实际应用中,现实场景多变的视角是不可避免的环境因素,而多视角唇部数据对音唇一致性分析的影响仍缺乏具体的研究;同时以往基于多元统计学的音唇一致性分析方法常假设音视频数据线性相关进行分析,但音视频数据间并非简单的线性相关关系,这就导致在一致性分析中容易忽略某些非线性相关数据特征,从而导致一致性分析效率难以提升。针对以上的问题,本文以多视角数据为前提条件对音唇一致性分析展开研究,论文主要工作包括以下两个方面:1.针对多视角问题,本文在循环生成对抗网络基础上,提出了一种改进的正面唇形图像重建算法。该算法在生成器网络中增加自映射检验损失,对生成器的输入和输出进行检验,保持重建过程中同域唇图的身份特征。生成器采用U-net网络结构,判别器使用马尔科夫判别器,全网络均使用上下采样方式加快模型收敛。实验结果表明,重建唇形与真实唇形在不同维度的特征保持高相关性,各视角重建唇形与真实唇形间相似性评价指标信噪比(PSNR)平均比view2view模型[50]提升约3.5%,结构相似性(SSIM)平均在7.1以上,有效实现了多视角唇形的正面化重建。2.在获得重建的正面唇形数据后,针对多元统计一致性分析存在的问题,本文结合三维卷积神经网络对音视频数据非线性相关特征和时空特征提取的优势,提出一种基于三维耦合卷积网络(3D Coupling Convolutional Neural Networks,3DCCNN)的音唇一致性分析方法。首先,该方法使用去离散傅里叶变换的梅尔倒谱系数表示语音模态数据,使用灰度唇形连续帧表示视频模态数据。然后,将两种模态数据通过不同的网络映射到同一个表示空间中进行耦合,使用对比损失优化耦合过程,同时使网络自动筛选合适的数据对进行训练。最后,使用学习到的多模态特征来评估音视频数据的一致性。在真实唇形、重建唇形和音频交叉组合五类不同的数据上实验结果表明,相比多元统计学方法在不同视角下等错误率(EER)平均下降约5%,近正面视图下降低约10%,说明本文方法具有更好的性能。
其他文献
学位
学位
学位
学位
学位
学位
学位
近年来,“一带一路”作为我国重大战略在加速推进,同时对供应链企业合作提出了更高要求。由于“一带一路”沿线国家企业发展水平参差不齐,且企业外部环境如:制度、法律、关税、金融监管、贸易政策、文化等方面差异较大,使得“一带一路”跨国供应链企业间的信任关系建立尤为困难。目前国内外文献对跨国供应链的研究大多是建立在由发达国家发展水平较高的大公司主导的供应链之上,而针对类似“一带一路”等新兴经济体的跨国供应链
目前,步态特征识别的研究与应用由于受到场景、携带物等因素的影响,识别精度在多模态下需要进一步提高。为此,针对不同应用问题,本文设计了基于动静态步态特征融合的多场景下技术实现方法,主要内容如下:1、针对数据预处理部分,借助于滑动平均滤波器这一重要的工具,实现了在保持信号原有波形特征基础上,防止出现数据丢失或者不真实等问题。首先,详细介绍人体步态识别技术的研究和应用现状,分析出人体步态周期特点,对几种
随着物联网技术的发展,二维条码技术越来越成熟,作为一种重要的信息感知来源被广泛应用于生产、制造、物流、仓储等领域。QR码由于具有较强纠错能力和全方位可快速识别等特点,是应用最为广泛的一种二维条码。在仓储物流等场景中,采用QR码人工路标作为视觉标识研究移动机器人的定位技术避免了很多因素的影响,通过快速和准确地识别QR码路标,实现了移动机器人的精确定位。但在实际的定位场景中,所采集的图像会受到各种因素