论文部分内容阅读
语音韵律转换技术是指在保持语音信号谱包络不变的条件下单独改变语音的基频或时长。这种技术是语音信号处理中的一个较新的分支,它具有很重要的理论意义和实用价值。本文研究的目的是开发一种能够在移动便携平台上进行实时处理的高质量、高自然度语音韵律转换系统。文章首先介绍了几种典型的语音韵律转换方法,接下来着重研究了一种低复杂度的韵律转换算法——TD-PSOLA算法。其中,对该算法中的关键技术点如基音检测、基音标注和同步叠加合成等进行了详细研究,将矩阵最优路径算法应用于本系统,并且讨论了叠加窗长度的选择对信号合成造成的影响,发现选择韵律转换前后对应较小的基音周期的窗长能够有效减少合成信号中的噪声。此外,根据TD-PSOLA算法直接对信号波形进行复制或删除,在修改基频时很容易造成信号幅度、相位及语谱上的不连续而造成合成信号质量下降这一缺点,提出将线性预测应用于本系统。实验表明,引入线性预测能够很好的改善合成语音的质量,同时系统的运算复杂度依然保持在一个较低的水平。文章最后介绍了一种新的基于HNM模型的韵律转换技术。经HNM模型处理后生成的信号质量要好于基于TD-PSOLA算法得到的结果,但对目前的硬件条件而言,这种基于HNM模型的韵律转换算法的复杂度还是很高,不适合于在移动便携平台上进行实时处理。