可视语音合成技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:eqsd521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
可视语音合成技术是人机交互领域和语音技术研究中一个重要的方向。人的语音由发音器官产生,因此人在进行语音表达时,必然会伴随着面部和发音器官运动的信息,这些视觉信息在人的交流和语言学习中起着重要的作用。本文围绕可视语音合成系统的构建,分别从多模态数据库建立、虚拟发音器官建模和声学参数到可视语音参数的映射模型几个方面对可视语音合成技术进行了研究。论文主要有以下具体内容:  录制了一个可视语音汉语普通话多模态数据库,该数据库包含多名说话人的同步语音及电磁发声记录仪(EMA)数据。录制的音节涵盖了汉语的元音发音、部分高频字词以及一定量的连续语句。这一数据库的建立给后续的可视语音研究提供了重要资料。  构建了一个实验性的可视语音合成系统。系统实现了由声学信号实时生成可视语音动画的功能。该系统参考人脸动画参数的定义提出了一种新的多说话人EMA数据归一化方法,结合基于混合高斯模型(GMM)的映射方法来实现语音到可视语音参数的映射。映射模型采用汉语多说话人的多模态数据进行训练,使得该系统可以接收任意说话人的语音信号并输出可视语音。基于计算机图形建模构建了虚拟的说话人面部和发音器官曲线和网格模型。系统合成的动画在主观测试中证明是有助于元音的辨别的,在语音缺失的情况下,接受测试者均能一定程度上从动画本身判别所发出的元音音节。  针对模型说话人和训练数据中的说话人不一致的问题,提出了两种解决方案。首先,提出了一种EMA数据的说话人转换方法。该方法结合空间形变技术和码本映射方法,并同时将声学参数考虑进来。它首先使用薄板样条逼近(TPSA)技术将一名说话人EMA空间进行扭曲使得其接近目标说话人,继而结合声学参数使用码本映射方法完成说话人转换。提出的方法得到了比单独使用空间形变和码本映射好的效果。其次,进行了基于隐马尔科夫模型(HMM)的声学参数和可视语音参数模型自适应的研究。采用基于HMM的建模方法和基于受限最大似然线性回归(CMLLR)的自适应方法,将声学参数和可视语音参数进行联合建模,并讨论了两种参数自适应变换的结构对建模性能的影响。在声学参数到可视语音参数的映射实验中,两种参数联合建模且共享状态聚类决策树和自适应变换的方式,得到了最好的效果。最后将说话人转换方法和自适应方法对目标说话人EMA数据的建模能力进行了对比,得出说话人转换方法更适合数据量较少且数据相对平均的情况而自适应方法在数据量大的情况下更有优势的结论。  提出了基于多层神经网络的实时核磁共振成像(rtMRI)数据预测方法。介绍了由语音预测发音器官运动方面的创新工作,即由语音信号对rtMRI图像序列进行估计。文章采用的方法是基于受限玻尔兹曼机(RBM)和线性回归的深度回归网络,并在此基础上提出了一种深度结构,即在深度回归网络基础上再堆积基于高斯-伯努利RBM的编码层的结构。实验结果证明深度神经网络可以有效的完成这项任务,且编码层的存在起到了MRI数据压缩的作用。采用该方法预测得到的rtMRI图像可以用于可视语音的展示和进一步的分析。
其他文献
该文主要研究了直升机地形跟随的系统要求,地形跟随飞行航迹控制器的设计;并利用模糊控制和神经网络来设计地形跟随的习控系统部分.首先对TF技术的发展作了简要的介绍,建立了
该文主要介绍了统计信号处理在通信系统中的两上重要应用--信道均衡和多用户检测,其中后者是前者在多用户通信条件下的推广.该文工作的第一个重点是对建模成FIR(有限冲激响应
该文论述了交流伺服系统的发展历史和技术现状,分析了交流永磁同步电动机的数学模型,研究了解耦控制的不同方式及其解耦控制效果,指出电流比例型解耦控制的有效性.针对伺服系
该论文在综述了神经网络及其辨识与控制方法的基础上,针对具有不确定性和时变性的非线性系统,结合自适应控制方案,提出了两种神经网络自适应控制方法,通过计算机仿真,证明了
该文对具有大滞后的工业复杂对象的控制问题,进行了评述,对各种控制方法进行了论述和比较,同时将预测控制、模糊控制的现状与发展趋势作了一些综述.现有的模糊控制方法一般适
预见控制是未来目标值及示来干扰在一定程度上为已知的情况下,充分利用这种未来情报来改善控制系统的性能的方法.预见控制主要应用于对一定程度的未来目标值及干扰已知的控制
应用管理信息系统(MIS)作为企业生产和经营管理的工具已成为企业发展的必然趋势,许多钢铁联合企业都十分迫切地要求开发应用计算机管理信息系统.由于大型钢铁企业业务和管理
统计参数语音合成,特别是其中的基于隐马尔科夫模型(Hidden MarkovModel,HMM)的语音合成,近年来经过了一个快速而蓬勃的发展期,展示出一系列优点,包括输出语音平稳、流畅,可以快速
随着Web2.0技术的迅速发展和GPS手持移动智能设备的广泛应用,人们在使用各种社会媒体的同时以各种各样的形式分享自己的地理位置,产生了大量地理数据。例如用户在Flickr上分享
该文以马钢中板厂管理信息系统的研制课题为背景,结合结构化分析与设计理论,详尽地阐述了马钢中板厂管理信息系统的开发过程.在系统分析部分,该文从生产工艺流程角度详细地分