基于AAM和异步发音特征DBN 模型的逼真可视语音合成

来源 :第十一届全国人机语音通讯学术会议 | 被引量 : 0次 | 上传用户：simyhu

【摘要】

：

【作者】

：

张贺蒋冬梅吴鹏谢磊付中华 Hichem Sahli

【机构】

：

西北工业大学计算机学院,陕西西安 710072 中国布鲁塞尔自由大学电子与信息工程系,布鲁

【出处】

：

第十一届全国人机语音通讯学术会议

【发表日期】

：

2011年5期

【关键词】

：

嘴部动画语音合成 DBN模型数理语言学

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　本文提出了一种基于主动外观模型(AAM)特征和异步发音特征DBN模型(AF_AVDBN)的逼真可视语音合成方法。在 AF_AVDBN模型中，发音特征（如嘴唇、舌体和声门/软腭的状态）之间允许在一定约束范围内异步，以更好地模拟协同发音现象，为人类真实发音过程建模。在模型训练中，以42维感知线性预测（PLP）特征作为音频特征，视频特征为嘴部图像的80维AAM特征。在听视觉数据库上训练好模型参数后，对于给定输入语音，基于期望值最大化（EM）算法推导出相应最优嘴部参数学习算法，并由学习得到的AAM特征重构出嘴部图像序列。在实验中，为30句连接词语音重构了嘴部动画，客观评价结果表明，与听视觉状态同步DBN模型（SS_DBN）和听视觉状态异步DBN模型（SA_DBN）相比，由AF_AVDBN模型学习得到的嘴部参数更加接近真实参数。对合成可视语音的主观评价结果表明，在模型中考虑听视觉之间的异步，会增加合成嘴部动画与语音之间的一致性，尤其是由AF_AVDBN模型，得到了非常准确、逼真、自然和清晰的可视语音。

其他文献

Using AR technology for automotive visibility and accessibility assessment

Automotive interior ergonomics analysis is important step for automotive development validation in the process, which directly affects the product development cycle time and cost. In order to provide

会议

Augmented realityautomotive ergonomicsA-pillar assessmentbinocular obstructio

A Visual Hull Algorithm of 3D Reconstruction Based on Interframe Coherence

The traditional volumetric visual hull generating methods were not applicable to real-time objects due to frame by frame calculations. A fast new algorithm based on interframe coherence was represente

会议

3D ReconstructionVisual HullFrame to Frame CoherenceMotion Estimation

Modeling and Simulation on Radar Detection Range Under Complex Electromagnetic Environment

A SERIES MODELS FOR RADAR DETECTION RANGE UNDER COMPLEX ELECTROMAGNETIC ENVIRONMENT WERE ESTABLISHED, INCLUDING ANTENNA GAIN, PROPAGATION IN MULTI-PATH, ATTENUATION, CLUTTERS OF RAINFALL AND SEA SURFA

会议

Radar detection rangemulti-pathsea clutterjammingM&S

A Window-Based Adaptive Correspondence Search Algorithm Using Mean Shift and Disparity Estimation

Aiming at the problem of low efficiency and unsatisfactory matching of uniform texture regions in binocular stereo vision, we propose a rapid window-based adaptive correspondence search algorithm usin

会议

Mean shiftdisparity estimationadaptive window matchingbinocular vision

基于不同音素概率分布的发音质量分数映射方法

现有的计算机辅助语言学习系统（Computer Assisted Language Learning，CALL）在得到GOP分数之后，对所有的音素都使用相同的映射函数计算相应的句子得分，忽略了不同音素发音之间的差异性。本文提出了一种使用专家评分语音对GOP分数归一化处理的新方法“概率分布映射算法” （probability distribution mapping algorithm，PDMA）。

会议

语音信号信号处理PDMA算法数理语言学

基于向量空间模型的网页文本句子对齐方法研究

平行网页文本中除了互为对照的内容，还存在一些无关的噪声，因此利用网页结构相似的方法解决平行网页中句对齐问题受到一定的限制。通过引入互译词典或同类词典的方法可以提高句对齐质量，但是双语词典的规模是有限的，不能覆盖所有对应的词汇。　　本文利用基于向量空间模型提供的相似度计算方法对平行网页文本进行句子对齐，在向量空间模型中，网页文本中的句子为一维空间中的向量，选取实词作为特征项，利用CHI统计量计算词汇

会议

语音处理互译词典CHI统计数理语言学

基于Hmm的单元挑选语音合成中的改进方法研究

本文对基于隐马尔柯夫模型（Hidden Markov Model, HMM）的单元挑选语音合成方法进行改进。针对原有方法单元预选过程中存在的线性搜索效率低、无法考虑相邻音素备选单元间连接性的问题，设计实现了基于决策树的音素/不定长单元预选方法；针对原有方法声学模型训练过程中方差参数估计受音库覆盖均衡性影响过大的问题，提出了绑定方差的声学模型训练策略。实验结果表明，以上两方面技术改进可以有效提升合成

会议

语音合成音素预选HMM模型数理语音学

鄂温克语双音节词韵律模式研究

本文利用“鄂温克语语音声学参数数据库”，对鄂温克语四种不同结构的486个双音节词的元音音长、音高和音强等进行统计分析的基础上，探讨了鄂温克语双音节词的韵律节奏模式与词重音之间的关系问题。

会议

鄂温克语双音节词韵律模式音节结构

汉语韵律边界的功能负载研究

在人类的语言交流中，语言事件，如各个音段，声调，韵律边界等都是信息传递的载体，所有的这些语言事件都为人类的语言交流起着不可或缺的作用。一直以来，人们通过听觉感知，信息熵等一些方法来研究各个语言事件在交流中所起到的作用。本文提出用互信息的功能负载的方法来度量每个语言事件所包含的信息量。主要以韵律的层级结构为研究对象，分析了不同韵律层级的作用，并与以前音段的信息量作了初步的对比，结果表明边界信息在

会议

语言交流汉语发油韵律边界声学语音学

中日语音节奏的声学特征对比研究

人们在学习外语时无可避免地会受到母语的影响。汉语和日语在语音节奏上存在着较大差异，这种差异会影响日本学生的汉语发音学习。本研究的主要目的旨在建立一种针对节奏的声学参数评判体系，来衡量日本留学生的汉语节奏受日语的影响程度。为此，我们收集了不同母语背景的三种发音数据：日本学生的中文、日文发音数据，以及中国学生的中文发音数据。从发音数据中我们提取了包括％V、ΔC、ΔV、rPVI、nPVI、短时平均能量

会议

中日语音语音节奏母语负迁移声学语音学

基于AAM和异步发音特征DBN 模型的逼真可视语音合成

其他学术论文