论文部分内容阅读
语音合成技术是实现人机交互的关键技术之一,具有广阔的应用前景,其发展目标是合成出清晰,自然,有表现力的语音,而韵律分析则是实现这一目标的基础。本文的研究内容在于探讨和解决拼接式语音合成系统中的两个重要问题,即如何基于文本对韵律结构进行自动预测以及如何对语音库进行自动韵律结构标注。重点研究了语法信息尤其是句法结构对韵律结构预测的作用。
文中首先对韵律结构、语法、语音声学参数之间的关系进行探讨和归纳,明确了研究的理论基础,并对韵律结构预测与自动标注方法进行探讨。
构建了一个基于句法结构标注的实验数据库。为了着重研究句法对韵律结构预测的贡献,本文从带有句法结构标注的语料库—清华树库中精选了部分语料用以录制语音,并对其进行韵律结构、声学参数的标注。
研究了语法,包括词法、句法信息对韵律结构预测的作用,并比较了最大熵和决策树模型在结构预测中的性能。实验结果表明在传统的以词法信息为特征输入的基础上引入句法结构信息对提高韵律结构预测的正确率具有显著的贡献,同时实验结果还表明最大熵模型比决策树模型在韵律结构预测方面具有更好的性能。
实现了利用声学参数特征对语音的韵律结构进行自动标注。本文分析提取了有用的声学参数特征,包括音节时长、能量、基频等并结合前面用到的语法信息,利用C4.5决策树的方法,对语音库进行自动韵律结构标注。实验结果表明韵律词边界和短语边界都达到了非常理想的标注结果。