基于声道谱特性的源-目标说话人声音转换算法的研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:lpflpf7337
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
源—目标说话人声音转换技术是指将源说话人的语音模式转换成某个特定的目标说话人的语音模式,即保持源说话人原有的语义信息不变,使转换后的语音具有目标说话人的声音特点。 语音信号中的说话人特征是体现在激励源和声道两方面的,本文在语音的线性预测分析/合成的模型框架下,着重研究了源—目标说话人声道谱特性的与文本无关的映射规则的获取方法。另外,在具体实现声音转换时,也考虑了声源信息的部分转换。 为实现与文本无关的源—目标说话人声音转换,并使获取的转换规则具有可实现性和推广性,本文采用了对特征参数矢量空间进行分类的策略,以类特征参数子空间获取转换规则,详细探讨了码本映射方法和分类线性映射方法,并就其中分类数对转换效果的影响、分类算法的选取等关键问题做了深入的实验分析。 为了克服分类不准确所导致的转换效果变差,同时希望在一定的分类数下能获取尽可能多的转换规则,以实现对源—目标话者的映射关系更精确的描述,本文给出了一种基于GMM的分类线性加权映射方法。该方法通过对特征参数空间的统计特性分布的描述,实现对特征空间的“软”分类,一定程度上克服了分类偏差导致的谱转换误差加大,并提高了谱转换方法的鲁棒性;另一方面它利用概率加权可组合成远大于类别数的规则,从而获取更好的转换效果。 本文对映射方法中常用的最小均方误差准则做了改进,提出了一种加权的最小均方误差训练准则,通过引入加权矩阵,实现了对话者个性贡献大的特征矢量集和特征参数分量的更精确的转换,进而提高了转换后的声道谱的目标说话人倾向性。 映射方法的获取过程实质就是一个统计学习的过程,它是在一定的训练集上总结出来的,故它对训练数据集有着较强的依赖性,本文对转换规则和训练集大小的关系也展开相应的实验研究。
其他文献
作为一门新兴科学,近年来,关于复杂网络的研究已经越来越深入,其应用也越来越广泛。在很多领域,包括因特网、生物信息学、社会学等方面,人们都开始利用复杂网络来进行一些新的研究
目的:研究探讨椎动脉型颈椎病病患进行针灸配合推拿进行治疗的效果.方法:研究时间段选取为2017.9月-2018.9月,研究对象为我院在该时间段内收治的椎动脉型颈椎病病患,选取例数
目的:探究经内镜逆行胰胆管造影下取石术治疗的护理配合方案,并分析其应用效果.方法:本次研究实验时间段设置为2018年1月至2019年8月,在该时间段内对我院数据库进行调查分析,
通信技术的不断发展使短距离无线通信技术已成为无线通信技术的新热点。未来的无线互连设备将具有低价格、低功耗的特点,符合IEEE 802.15.4标准的ZigBee技术正好具备上述优点
目的:探究综合疗法治疗急腹症手术后早期炎性肠梗阻患者的临床效果.方法:将2017年6月至2019年6月期间我院收治的70例急腹症术后早期炎性肠梗阻患者作为研究对象,并将其随机分
污染土壤原位修复过程中土壤有机碳含量及其组分、结构和矿化特征是反映污染土壤修复中土壤质量提升和生态恢复的重要指标;土壤有机碳中可用溶解性有机碳和微生物量碳等活性
目的:分析胆囊腺肌症的鉴别诊断.方法:选择我院收治的57例胆囊腺肌症、57例胆囊癌患者分别纳入良性组、恶性组,给予患者超声诊断.结果:良性组诊断准确率96.49%,恶性组诊断准确
有机太阳能电池具有价格低廉,制备简单,可以制备成柔性器件等优点,但是主要缺点是效率偏低,容易退化,因而距离实际应用还有较大差距。与正常结构器件相比,反型有机电池具有更加优异的可靠性,但是比较高的退火温度成为其主要限制因素。论文主要研究如何在极低的工艺温度条件下制备高性能反型电池,主要研究以下三个方面:第一,使用传统的溶胶凝胶法在低温退火条件下制备氧化锌基有机太阳能电池。当退火温度下降到150摄氏度
人脸是一个信息极丰富的模式集合,是人类互相判别、认识、记忆的主要标志,在计算机视觉、模式识别、多媒体技术研究中占有重要的地位。人脸检测作为人脸图像应用领域中的关键
目的:研究中西医结合治疗面神经炎的临床疗效.方法:选择本院2018年3月到2019年6月的94例患者,按照随机原则分为观察组、对照组,每组患者47例.对照组采用常规西药的治疗方法,