高自然度的统计参数语音合成方法研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:ziones
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
统计参数语音合成具有输出语音平滑、连贯、鲁棒性高,系统构建快速、自动,可以灵活控制语音参数以及发音风格等优点,近年来在语音合成领域引起了极大的兴趣和重视,其中尤以基于隐马尔可夫模型(Hidden Markov Model,HMM)的语音合成为代表。现阶段基于HMM的语音合成的主要缺点是合成语音不够自然,主要体现在音质不够高和韵律过于平淡这两方面。本文研究的目标是高自然度的统计参数语音合成方法,在实现上以基于隐马尔可夫模型的语音合成为对象。本文具体研究工作和成果如下:   在对基于HMM的语音合成核心方法和技术全面回顾的基础上,从HMM模型的准确度、语音参数生成和声码器合成这三个方面深入分析和总结了导致合成语音自然度下降的原因,从而为本文的研究工作提供了出发点。   对以下HMM建模及模型训练设置,即HMM拓扑状态数、建模单元、训练语料量和基于最短描述长度(Minimum Description Length, MDL)的聚类因子,进行深入研究,得出一组具有指导意义的结论。研究中采用的HMM似然值、生成误差与主观评价相结合的评价方法适于进行模型准确度的评估。   对结合整体方法的参数生成方法进行扩展。一是提出基于相邻阶LSP差分的整体方差模型以及结合该整体方差的语音参数生成算法。该方法能够更好地抑制生成的LSP参数的过平滑问题,提升合成语音的质量。二是进一步将结合整体方差的方法扩展到状态时长的生成中,提出结合整体方差的状态时长生成方法。该方法能够更好的抑制生成的状态时长的过平均问题,提升合成语音在时长分布方面的表现力和自然度。   提出一种基于HMM的基元选取方法。该方法中采用基于分类回归树(Classification and Regression Tree,CART)的边界基频预测模型对相邻基元边界上的边界基频依赖关系进行建模,并在基元选取阶段以该模型指导基频拼接代价的计算。该方法使得基于HMM的基元选取合成方法在拼接代价的度量上更加准确,从而提高了基元边界基频的匹配程度以及整体的自然度。  
其他文献
绳索牵引自动水平调节机器人,能解决长期困扰载荷装卸领域的姿态调节和受力控制难题,有效保障昂贵及高精密性的载荷在吊运和装卸过程中的安全。因此相关研究具有重要的理论意
核磁共振(NMR-Nuclear Magnetic Resonance)技术的无损检测特点使其具有明显的优势,特别是当前食品安全和工业生产造成的环境污染成为国内关注的焦点,快速、实时、无损的现场检
随着互联网的蓬勃发展,网络媒体已逐渐成为人们获取信息的重要来源。网络媒体包括了大量的图片、Flash网络动画等多种媒体资源,如何对这些资源进行有效地管理,如何对这些资源进
本文主要针对排序学习的一些相关问题进行研究。由于排序学习重要的实际意义,因此已经得到了机器学习以及信息检索领域研究学者的广泛关注。排序学习是一个典型的非光滑优化问
在人的视觉感知、识别和理解中,形状是图像中目标的基本内在特性,是用于目标识别的重要特征,因此基于形状的图像匹配、目标识别方法研究具有重要意义。针对不同的研究目的,人
据有关资料统计,当今世界上共有5651种语言。语种之间的信息互通越来越重要,如何让计算机识别出不同的语种已经成为人们的迫切需求。语种识别(Language Identification, LID)
Hopfield神经网络是一种典型的递归神经网络,具有丰富的动力学特性,已经广泛地应用于各个领域。由于Hopfield神经网络的全连接递归结构,造成其存在网络结构非常复杂,难于建立大规
本文以实验室的冰箱为研究对象,综合研究了冰箱的食品保鲜、节能以及在兼顾冰箱的食品保鲜和节能下的优化控制。主要有如下内容:  首先,对冰箱的食品保鲜进行了研究。研究
两轮机器人是一个本征不稳定的欠驱动系统,并且具有多变量、非线性、强耦合和参数不确定的特点,其姿态平衡控制原理与人相似,又被称为原理性仿生机器人,让两轮机器人能够像人
光电吊舱是一个集光、机、电于一体的复杂系统,其近几年发展十分迅速,被广泛地应用于军事领域和公安、消防以及环境监控等民用领域。本课题对光电吊舱进行了深入研究,并根据未