基于AAM和异步发音特征DBN 模型的逼真可视语音合成

来源 :第十一届全国人机语音通讯学术会议 | 被引量 : 0次 | 上传用户:simyhu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  本文提出了一种基于主动外观模型(AAM)特征和异步发音特征DBN模型(AF_AVDBN)的逼真可视语音合成方法。在 AF_AVDBN模型中,发音特征(如嘴唇、舌体和声门/软腭的状态)之间允许在一定约束范围内异步,以更好地模拟协同发音现象,为人类真实发音过程建模。在模型训练中,以42维感知线性预测(PLP)特征作为音频特征,视频特征为嘴部图像的80维AAM特征。在听视觉数据库上训练好模型参数后,对于给定输入语音,基于期望值最大化(EM)算法推导出相应最优嘴部参数学习算法,并由学习得到的AAM特征重构出嘴部图像序列。在实验中,为30句连接词语音重构了嘴部动画,客观评价结果表明,与听视觉状态同步DBN模型(SS_DBN)和听视觉状态异步DBN模型(SA_DBN)相比,由AF_AVDBN模型学习得到的嘴部参数更加接近真实参数。对合成可视语音的主观评价结果表明,在模型中考虑听视觉之间的异步,会增加合成嘴部动画与语音之间的一致性,尤其是由AF_AVDBN模型,得到了非常准确、逼真、自然和清晰的可视语音。
其他文献
Automotive interior ergonomics analysis is important step for automotive development validation in the process, which directly affects the product development cycle time and cost. In order to provide
The traditional volumetric visual hull generating methods were not applicable to real-time objects due to frame by frame calculations. A fast new algorithm based on interframe coherence was represente
A SERIES MODELS FOR RADAR DETECTION RANGE UNDER COMPLEX ELECTROMAGNETIC ENVIRONMENT WERE ESTABLISHED, INCLUDING ANTENNA GAIN, PROPAGATION IN MULTI-PATH, ATTENUATION, CLUTTERS OF RAINFALL AND SEA SURFA
Aiming at the problem of low efficiency and unsatisfactory matching of uniform texture regions in binocular stereo vision, we propose a rapid window-based adaptive correspondence search algorithm usin
现有的计算机辅助语言学习系统(Computer Assisted Language Learning,CALL)在得到GOP分数之后,对所有的音素都使用相同的映射函数计算相应的句子得分,忽略了不同音素发音之间的差异性。本文提出了一种使用专家评分语音对GOP分数归一化处理的新方法“概率分布映射算法” (probability distribution mapping algorithm,PDMA)。
平行网页文本中除了互为对照的内容,还存在一些无关的噪声,因此利用网页结构相似的方法解决平行网页中句对齐问题受到一定的限制。通过引入互译词典或同类词典的方法可以提高句对齐质量,但是双语词典的规模是有限的,不能覆盖所有对应的词汇。  本文利用基于向量空间模型提供的相似度计算方法对平行网页文本进行句子对齐,在向量空间模型中,网页文本中的句子为一维空间中的向量,选取实词作为特征项,利用CHI统计量计算词汇
本文对基于隐马尔柯夫模型(Hidden Markov Model, HMM)的单元挑选语音合成方法进行改进。针对原有方法单元预选过程中存在的线性搜索效率低、无法考虑相邻音素备选单元间连接性的问题,设计实现了基于决策树的音素/不定长单元预选方法;针对原有方法声学模型训练过程中方差参数估计受音库覆盖均衡性影响过大的问题,提出了绑定方差的声学模型训练策略。实验结果表明,以上两方面技术改进可以有效提升合成
本文利用“鄂温克语语音声学参数数据库”,对鄂温克语四种不同结构的486个双音节词的元音音长、音高和音强等进行统计分析的基础上,探讨了鄂温克语双音节词的韵律节奏模式与词重音之间的关系问题。
在人类的语言交流中,语言事件,如各个音段,声调,韵律边界等都是信息传递的载体,所有的这些语言事件 都为人类的语言交流起着不可或缺的作用。一直以来,人们通过听觉感知,信息熵等一些方法来研究各个语言事件在交流中所起到的作用。本文提出用互信息的功能负载的方法来度量每个语言事件所包含的信息量。主要以韵律的层级结构为研究对象,分析了不同韵律层级的作用,并与以前音段的信息量作了初步的对比,结果表明边界信息 在
人们在学习外语时无可避免地会受到母语的影响。汉语和日语在语音节奏上存在着较大差异,这种差异会影响 日本学生的汉语发音学习。本研究的主要目的旨在建立一种针对节奏的声学参数评判体系,来衡量日本留学生的汉语节奏受日语的影响程度。为此,我们收集了不同母语背景的三种发音数据:日本学生的中文、日文发音数据,以及中国学生的中文发音数据。从发音数据中我们提取了包括%V、ΔC、ΔV、rPVI、nPVI、短时平均能量