论文部分内容阅读
随着近些年人机交互系统的广泛应用,语音合成技术受到了众人的日益关注。虽然语音合成已经在清晰度、可懂度和自然度方面取得了较好的效果,但是目前的人机交互系统还是以中性化语音为主,缺乏情感的表达。而人的语音交流不仅包含着基本的文字内容,还承载着大量丰富的情感信息。因此,情感语音合成是目前国际上的研究热点。本文引入PAD(Pleasure-Arousal-Dominance)三维情绪模型,建立了一个具有11种情感的情感语料库,并标注了情感语音的PAD值。在此基础上,利用五度字调模型建立情感语音的基频模型,并利用GRNN(Generalized Regression Neural Network)实现了情感语音的韵律转换。进一步,本文利用说话人自适应训练方法实现了情感语音的统计参数语音合成。论文的主要工作和创新如下:1.建立了一个情感语音语料库。该语料库录制了一个女性说话人的中性、放松、惊奇、温顺、喜悦、愤怒、焦虑、厌恶、轻蔑、恐惧、悲伤等11种典型情感,并引入PAD三维情绪模型,对语音语料标注了情感的PAD值,对文本语料标注了其韵律结构。2.提出了一种基于PAD三维情绪模型的情感语音韵律转换方法。利用五度字调模型建立了情感语音的基频包络模型,并利用GRNN实现了情感语音的韵律转换。实验结果表明,五度字调模型建立的情感语音基频包络,其最大RMSE误差不超过6.9Hz,满足对基频曲线建模的要求。利用GRNN模型转换获得的情感语音在95%置信区间下的平均EMOS(Emotion Mean Opinion Score)得分为3.6分,能够表达出情感信息。3.提出了一种基于说话人自适应训练(Speaker Adaptive Training, SAT)的情感语音统计参数合成方法。设计了文本的上下文相关标注格式,建立了一个情感语音的问题集。通过混合多个说话人的普通话大语料库和一个说话人的情感语音的小语料库,采用说话人自适应训练得到一个平均音模型。然后通过说话人自适应变换,利用特定说话人的情感训练语音,从平均音模型获得说话人相关(Speaker Dependent,SD)的情感语音模型,从而合成出情感语音。实验结果表明,本文提出的方法其合成的情感语音平均EMOS得分2.7,优于只利用情感语音训练的模型的EMOS得分。