论文部分内容阅读
随着人机交互技术的发展,越来越多的实际产品中采用了较传统方式而言更为友好的人机交互形式。而语音合成技术,作为人机交互技术中的关键技术之一,已经被广泛的应用到许多嵌入式设备之中。在实际应用中,经常有多种语言同时出现在一句话当中的情况。最典型的是,中文和英文经常同时出现在日常用语中。因此处理多语言是语音合成技术通向实用必须要解决的问题。
本文的研究工作如下:
提出了一种基于决策树聚类的音库裁减策略,它以样本的韵律特征相似性为客观依据,同时考虑到每个样本所处上下文环境的相似性,对每一个音节的样本进行聚类。可以根据用户指定的压缩率,在每一类中挑选离类中心最近的若干样本,完成对音库的裁减。
参与实现了基于韵律模板的韵律预测模型。采用决策树的方法对音节的韵律特征进行建模,包括时长、能量、静音、基频均值、基频最大值、基频最小值、基频起始值、起始处的斜率、基频终止值、终止处的斜率等;在进行预测时,除了考虑传统的上下文信息之外,还利用候选单元的韵律特征预测其前后音节的韵律环境,并以此作为拼接代价和目标代价的计算依据,使用VITERBI搜索的方法从韵律库中得到最优的韵律模板序列,完成韵律参数的预测。
调查了英文基本声学单元的韵律特征的分布情况,论证了采用中文语音合成系统中成熟的韵律预测方法对英文进行韵律预测的可能性,并且考虑了英文基本声学单元与中文基本声学单元之间的不同之处,在保持大框架不变的前提下,对模型细节部分做了一定的修改。
实现了一个嵌入式中英文双语语音合成系统的原型。在实现过程中,主要关注了中文合成系统与英文合成系统的融合。讨论了由于嵌入式平台硬件的局限性带来的问题,并提出了相应的解决方案。