论文部分内容阅读
人类很早就发现自己有模仿别人说话的能力,甚至某些动物,如鹦鹉,都有很强的模仿能力。语音技术发展到今天,研究人员逐渐意识到,这种模仿技术在现实中存在着巨大的需求,语音转换技术也顺理成章地成为语音处理领域继语音识别、语音合成之后的又一研究热点。
语音信号中包含有说话内容、说话人特征和说话环境三部分的信息。语音转换的任务是要保持内容和环境的信息不变,修改其中说话人特征的信息,使其听起来像出自目标说话人之口。经典的源.滤波器模型参照人类发音系统的生理构造,将语音信号分解成声门激励源和声道声学滤波器。迄今为止,研究人员提出了许多量化的声学参数,以表征说话人之间声门和声道的差异。比如与声带开闭频率相关的基频;与声道长度和形状相关的共振峰频率和带宽;与声门脉冲相关的音质;与时间选取相关的时长、停顿、重读;甚至还有由社会、地理因素造成的口音差异等。
现有的语音转换技术没法考虑所有这些说话人相关参数的转换,一般只是选取其中最重要的几个参数,实现其在说话人之间的映射。目前,国内外主流的语音转换技术,是建立特定的一对说话人之间的频谱映射函数,同时实现两个人之间基频在对数域的线性转换,利用映射得到的频谱和基频,重新合成出具有目标说话人特性的语音。这种方法能够保证转换得到语音的自然度,以及与目标说话人语音的相似度。它的一个明显缺陷在于应用大量数据训练得到频谱和基频之间的映射函数,转换时只能适应于训练数据中特定的两个说话人。为了突破这一局限,本文作者提出一种从任意源说话人的MFCC向量到目标说话人的基频和前三个共振峰映射的方法,通过修改源语音STRAIGHT参数,使其合成后语音的基频和共振峰频率为目标值。
参照TIMIT库的SX和SA部分的文本,本文作者录制了452个句子作为目标说话人的训练语料,得到从MFCC向量到基频和共振峰的SVR模型参数;并从TIMIT库中挑选少量语句作为测试语音,利用训练得到的模型预测基频和共振峰的目标轨迹,然后利用STRAIGHT对输入语音进行分解、修改、合成得到转换后的语音。虽然在这种新的框架下,语音转换系统的源说话可以为任意说话人,但主观评估的结果表明,转换后的语音无论在音质和与目标说话人的相似度上,都同现有的特定说话人之间的语音转换性能上有明显的差距。但这是可以预见的,因为我们在训练阶段只用到了一定量的目标说话人语音,更重要的是,这个系统将任意说话人的语音都转换成具有目标说话人的音色特性。