论文部分内容阅读
本文实现的是一个基于新闻联播语料库的拼接式语音合成系统。
首先对语音合成系统的发展过程和研究现状分别作了回顾和介绍。然后针对拼接式汉语语音合成的研究重点和发展方向,着重完成了新闻联播风格语音数据库、基于决策树的韵律结构预测模型和不定长单元的选音算法等几个方面的工作。
针对大规模语音合成语料库建设周期长的问题,考虑到新闻联播语音清晰、标准,提出从新闻联播语音数据中自动提取数据生成合成语音数据库的思想。并且充分利用实验室的技术和资源,实现了一个有7500个句子组成的新闻联播风格合成语音数据库,对其进行了自动的标注并建立了一个基于决策树聚类的索引系统。
采用主流的基于决策树分类的预测方法实现了韵律结构预测模块。通过从文本中挖掘对韵律特征变化有影响的上下文信息作为决策属性,构建了可以进行韵律边界预测的韵律结构模型。
实现了不定长拼接单元的选择算法。通过构建拼接代价函数,优先选择匹配的韵律词和在实际语流中连续的拼接单元,着重讨论了代价函数中权重设定的问题。既考虑每个单元与目标的匹配,又保证了整个句子的合成效果最优。
在上述基础上,实现了一个基于新闻联播风格语音数据库的拼接式语音合成系统,该系统合成的语音保留了播音员的原始说话风格。