移动便携平台语音韵律转换技术研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:spsnake
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音韵律转换技术是指在保持语音信号谱包络不变的条件下单独改变语音的基频或时长。这种技术是语音信号处理中的一个较新的分支,它具有很重要的理论意义和实用价值。本文研究的目的是开发一种能够在移动便携平台上进行实时处理的高质量、高自然度语音韵律转换系统。文章首先介绍了几种典型的语音韵律转换方法,接下来着重研究了一种低复杂度的韵律转换算法——TD-PSOLA算法。其中,对该算法中的关键技术点如基音检测、基音标注和同步叠加合成等进行了详细研究,将矩阵最优路径算法应用于本系统,并且讨论了叠加窗长度的选择对信号合成造成的影响,发现选择韵律转换前后对应较小的基音周期的窗长能够有效减少合成信号中的噪声。此外,根据TD-PSOLA算法直接对信号波形进行复制或删除,在修改基频时很容易造成信号幅度、相位及语谱上的不连续而造成合成信号质量下降这一缺点,提出将线性预测应用于本系统。实验表明,引入线性预测能够很好的改善合成语音的质量,同时系统的运算复杂度依然保持在一个较低的水平。文章最后介绍了一种新的基于HNM模型的韵律转换技术。经HNM模型处理后生成的信号质量要好于基于TD-PSOLA算法得到的结果,但对目前的硬件条件而言,这种基于HNM模型的韵律转换算法的复杂度还是很高,不适合于在移动便携平台上进行实时处理。
其他文献
N-Smoothlets是传统Smoothlet的改进。采用N-Smoothlets变换对图像进行分解时,可以用最多N条线段表示图像局部子块的纹理特征,而传统Smoothlet只用一条线段表示。通过增加线
视频监控系统的主要功能就是通过图像采集设备,提供实时的、准确的、直观的图像信息。目前,新一代的网络视频监控系统更是集先进的图像压缩处理技术和网络通信技术于一体,用