论文部分内容阅读
统计参数语音合成具有输出语音平滑、连贯、鲁棒性高,系统构建快速、自动,可以灵活控制语音参数以及发音风格等优点,近年来在语音合成领域引起了极大的兴趣和重视,其中尤以基于隐马尔可夫模型(Hidden Markov Model,HMM)的语音合成为代表。现阶段基于HMM的语音合成的主要缺点是合成语音不够自然,主要体现在音质不够高和韵律过于平淡这两方面。本文研究的目标是高自然度的统计参数语音合成方法,在实现上以基于隐马尔可夫模型的语音合成为对象。本文具体研究工作和成果如下:
在对基于HMM的语音合成核心方法和技术全面回顾的基础上,从HMM模型的准确度、语音参数生成和声码器合成这三个方面深入分析和总结了导致合成语音自然度下降的原因,从而为本文的研究工作提供了出发点。
对以下HMM建模及模型训练设置,即HMM拓扑状态数、建模单元、训练语料量和基于最短描述长度(Minimum Description Length, MDL)的聚类因子,进行深入研究,得出一组具有指导意义的结论。研究中采用的HMM似然值、生成误差与主观评价相结合的评价方法适于进行模型准确度的评估。
对结合整体方法的参数生成方法进行扩展。一是提出基于相邻阶LSP差分的整体方差模型以及结合该整体方差的语音参数生成算法。该方法能够更好地抑制生成的LSP参数的过平滑问题,提升合成语音的质量。二是进一步将结合整体方差的方法扩展到状态时长的生成中,提出结合整体方差的状态时长生成方法。该方法能够更好的抑制生成的状态时长的过平均问题,提升合成语音在时长分布方面的表现力和自然度。
提出一种基于HMM的基元选取方法。该方法中采用基于分类回归树(Classification and Regression Tree,CART)的边界基频预测模型对相邻基元边界上的边界基频依赖关系进行建模,并在基元选取阶段以该模型指导基频拼接代价的计算。该方法使得基于HMM的基元选取合成方法在拼接代价的度量上更加准确,从而提高了基元边界基频的匹配程度以及整体的自然度。