论文部分内容阅读
语言是人类进行沟通和交流的一种最便捷方式,语音是语言的一种形式。语音合成与转换是语音信号处理的重要分支,得到了广泛的应用。语音预处理是语音合成与转换的重要组成部分,其结果直接影响合成和转换语音的质量。然而语音预处理、语音合成与转换算法仍然存在一些不足和有待解决的问题,如含噪语音清浊音分类准确度不是很高、协同发音现象没有很好地得到解决、合成与转换语音的自然度不能令人满意等。语音合成与转换的关键技术是语音预处理、小语料库的语音合成与转换,本文研究上述相关算法,解决了合成与转换语音清晰度、自然度低的问题,提高了合成与转换语音的质量。 在语音预处理方面,针对以往清、浊音分类算法的不足,提出基于Mel子带能量高斯混合模型的分类算法,该算法采用Mel频率来计算语音信号在频谱各子带能量分布比例,作为特征来建立高斯混合模型,计算各类语音信号对应高斯混合模型的最大后验概率,对语音信号进行清、浊音分类,仿真实验证明了该算法的有效性。针对基音检测存在的问题,提出了幅值补偿的AMDF基音检测算法,降低了由于语音信号幅值衰减而造成的检测误差,仿真实验表明,该方法具有更高的基音检测准确度。 在语音合成方面,考虑到自然语音存在协同发音的现象,提出了波形拼接和参数合成相结合的算法--频谱能量过渡协同发音语音合成算法和共振峰过渡协同发音语音合成算法。第一种算法是根据协同发音过程中频谱能量连续过渡这一现象,通过调整协同发音上下段音素对应的频带能量进行协同发音语音合成;第二种算法是根据协同发音过程中共振峰连续过渡现象,通过对共振峰位置、幅值、带宽的修改进行协同发音语音合成。将两种算法和滑动窗拼接协同发音语音合成算法进行了比较,仿真实验证明了本文算法的有效性。连续变调现象是自然语流中经常出现的现象,能否解决此问题,直接关系到词汇语义的正确理解。提出了决策树建模,按照模型进行音节的音高、时长等修改的连续变调语音合成算法,仿真实验结果表明,本算法合成连续变调词汇的可懂度、自然度均高于声调模型+基音同步叠加算法。针对汉语语调受声调,重读词汇等影响,难以准确建模的问题,通过分析声调、重读词汇等在语调大波浪中的作用,提出了采用决策树对语调建模,根据模型对音节进行时长、音高、能量等修改,进行汉语语调合成的算法,将本算法和句尾基频曲线调整语调合成算法进行了比较,仿真实验证明了算法的有效性。 在语音转换方面,针对语音转换过程中源、目标语音动态时间规整出现的匹配误差问题提出了变滑动窗语音转换算法,该算法根据当前帧的基音检测结果确定滑动窗的宽度,将源话者语音和目标话者语音对齐,采用高斯混合模型进行话者频谱包络转换;韵律参数也是体现话者个性特征的重要参数,本文采用决策树对源、目标话者进行韵律参数建模,建立源、目标话者韵律特征映射规则,将源、目标话者韵律特征进行转换。该算法降低了采用固定窗进行源、目标话者语音对齐时产生的误差,同时将代表话者个性特征的韵律参数进行了转换,仿真实验表明该算法有更好的语音转换效果。