基于共振峰预测的源说话人无关语音转换研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:ericshen81
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类很早就发现自己有模仿别人说话的能力,甚至某些动物,如鹦鹉,都有很强的模仿能力。语音技术发展到今天,研究人员逐渐意识到,这种模仿技术在现实中存在着巨大的需求,语音转换技术也顺理成章地成为语音处理领域继语音识别、语音合成之后的又一研究热点。   语音信号中包含有说话内容、说话人特征和说话环境三部分的信息。语音转换的任务是要保持内容和环境的信息不变,修改其中说话人特征的信息,使其听起来像出自目标说话人之口。经典的源.滤波器模型参照人类发音系统的生理构造,将语音信号分解成声门激励源和声道声学滤波器。迄今为止,研究人员提出了许多量化的声学参数,以表征说话人之间声门和声道的差异。比如与声带开闭频率相关的基频;与声道长度和形状相关的共振峰频率和带宽;与声门脉冲相关的音质;与时间选取相关的时长、停顿、重读;甚至还有由社会、地理因素造成的口音差异等。   现有的语音转换技术没法考虑所有这些说话人相关参数的转换,一般只是选取其中最重要的几个参数,实现其在说话人之间的映射。目前,国内外主流的语音转换技术,是建立特定的一对说话人之间的频谱映射函数,同时实现两个人之间基频在对数域的线性转换,利用映射得到的频谱和基频,重新合成出具有目标说话人特性的语音。这种方法能够保证转换得到语音的自然度,以及与目标说话人语音的相似度。它的一个明显缺陷在于应用大量数据训练得到频谱和基频之间的映射函数,转换时只能适应于训练数据中特定的两个说话人。为了突破这一局限,本文作者提出一种从任意源说话人的MFCC向量到目标说话人的基频和前三个共振峰映射的方法,通过修改源语音STRAIGHT参数,使其合成后语音的基频和共振峰频率为目标值。   参照TIMIT库的SX和SA部分的文本,本文作者录制了452个句子作为目标说话人的训练语料,得到从MFCC向量到基频和共振峰的SVR模型参数;并从TIMIT库中挑选少量语句作为测试语音,利用训练得到的模型预测基频和共振峰的目标轨迹,然后利用STRAIGHT对输入语音进行分解、修改、合成得到转换后的语音。虽然在这种新的框架下,语音转换系统的源说话可以为任意说话人,但主观评估的结果表明,转换后的语音无论在音质和与目标说话人的相似度上,都同现有的特定说话人之间的语音转换性能上有明显的差距。但这是可以预见的,因为我们在训练阶段只用到了一定量的目标说话人语音,更重要的是,这个系统将任意说话人的语音都转换成具有目标说话人的音色特性。
其他文献
语音识别技术是实现人机交互智能化必不可少的技术之一,是计算机技术非常有前途的发展方向。语音识别经过几十年的研究,已经取得了很大的成果,某些比较成熟的技术已经逐步应用于
分布式井-地电位测量仪用于采集油气开发现场的井-地电位数据,是研究高含水期油田注水分布和剩余油分布的一种新型电法仪器。本文对井-地电位检测系统进行了深入研究,提出了分
城市道路交通犹如人们生活的命脉,发生在道路上的交通事件,特别是交通事故的频发,严重地影响了正常的交通秩序,不仅危及生命,使国家和人民的财产遭受重大损失。交通事件应急
复杂网络近年来受到来自科学与工程各个领域研究者越来越多的关注,成为了研究的一个热点。现实中的许多系统均可以用复杂网络来进行描述,例如:因特网,万维网,电力网,局域网,脑神经
尽管基于神经网络的机器人步态学习控制问题已经被广泛研究,然而已有的研究成果对于神经网络能否学习到系统未知动力学模型并没有进行深入探讨。这导致了在已有的控制策略中,
对先验信息的表达和利用是提高机器学习方法性能的重要途径,而数据的空间结构是先验信息的重要表现形式之一。近年来,利用图来刻画数据间内在结构的方法受到研究人员大量的关注
本文主要研究了一种综合运用现代控制理论、测试性理论与可靠性技术解决舰空导弹测试项目优化问题的方法。首先,通过系统建模、规范分解、最小维观测器设计提取测试项目;其次,根
无线传感器网络的发展使得它的应用越来越广泛,目标跟踪是其中最重要的应用之一。它对于仓储物流、环境监控、道路交通和军事目标跟踪等领域都具有重要的研究价值。本文对基
在工业、航天、医疗等许多领域中,经常需要测量两个空间物体坐标系间的相对位姿。位姿测量方法一般包括声纳或激光测距、GPS、视觉方法等多种方法,其中视觉方法由于其信息量大
近年来,机器人技术已经广泛应用到非工业领域,如医疗、康复、巡游等。其中,由于潜在的科学意义和社会效益,服务机器人成为了机器人研究的新热点。开发服务机器人涵盖多项机器人技