论文部分内容阅读
可视语音合成技术是人机交互领域和语音技术研究中一个重要的方向。人的语音由发音器官产生,因此人在进行语音表达时,必然会伴随着面部和发音器官运动的信息,这些视觉信息在人的交流和语言学习中起着重要的作用。本文围绕可视语音合成系统的构建,分别从多模态数据库建立、虚拟发音器官建模和声学参数到可视语音参数的映射模型几个方面对可视语音合成技术进行了研究。论文主要有以下具体内容: 录制了一个可视语音汉语普通话多模态数据库,该数据库包含多名说话人的同步语音及电磁发声记录仪(EMA)数据。录制的音节涵盖了汉语的元音发音、部分高频字词以及一定量的连续语句。这一数据库的建立给后续的可视语音研究提供了重要资料。 构建了一个实验性的可视语音合成系统。系统实现了由声学信号实时生成可视语音动画的功能。该系统参考人脸动画参数的定义提出了一种新的多说话人EMA数据归一化方法,结合基于混合高斯模型(GMM)的映射方法来实现语音到可视语音参数的映射。映射模型采用汉语多说话人的多模态数据进行训练,使得该系统可以接收任意说话人的语音信号并输出可视语音。基于计算机图形建模构建了虚拟的说话人面部和发音器官曲线和网格模型。系统合成的动画在主观测试中证明是有助于元音的辨别的,在语音缺失的情况下,接受测试者均能一定程度上从动画本身判别所发出的元音音节。 针对模型说话人和训练数据中的说话人不一致的问题,提出了两种解决方案。首先,提出了一种EMA数据的说话人转换方法。该方法结合空间形变技术和码本映射方法,并同时将声学参数考虑进来。它首先使用薄板样条逼近(TPSA)技术将一名说话人EMA空间进行扭曲使得其接近目标说话人,继而结合声学参数使用码本映射方法完成说话人转换。提出的方法得到了比单独使用空间形变和码本映射好的效果。其次,进行了基于隐马尔科夫模型(HMM)的声学参数和可视语音参数模型自适应的研究。采用基于HMM的建模方法和基于受限最大似然线性回归(CMLLR)的自适应方法,将声学参数和可视语音参数进行联合建模,并讨论了两种参数自适应变换的结构对建模性能的影响。在声学参数到可视语音参数的映射实验中,两种参数联合建模且共享状态聚类决策树和自适应变换的方式,得到了最好的效果。最后将说话人转换方法和自适应方法对目标说话人EMA数据的建模能力进行了对比,得出说话人转换方法更适合数据量较少且数据相对平均的情况而自适应方法在数据量大的情况下更有优势的结论。 提出了基于多层神经网络的实时核磁共振成像(rtMRI)数据预测方法。介绍了由语音预测发音器官运动方面的创新工作,即由语音信号对rtMRI图像序列进行估计。文章采用的方法是基于受限玻尔兹曼机(RBM)和线性回归的深度回归网络,并在此基础上提出了一种深度结构,即在深度回归网络基础上再堆积基于高斯-伯努利RBM的编码层的结构。实验结果证明深度神经网络可以有效的完成这项任务,且编码层的存在起到了MRI数据压缩的作用。采用该方法预测得到的rtMRI图像可以用于可视语音的展示和进一步的分析。