论文部分内容阅读
声学模型在语音识别与语音合成系统中起着重要的作用。目前主流的声学建模方法大多利用谱特征并基于隐马尔科夫模型(Hidden Markov Model-HMM)框架对语音的声学观察进行统计。然而这种建立在谱特征空间中的声学模型难以体现出语音在发音层面上的动态特性以及各个隐状态之间的内在关联,导致模型状态冗余,推广能力和灵活性较差。为此,一些研究者提出了隐式声道共振建模思想,即以声道共振参数作为模型参数来描述发音过程,而计算观察概率时,将这些参数转换为谱参数,再与谱特征观察进行似然比较。
本文研究中提出了一种基于HMM框架的隐式声道共振模型。模型在有限状态空间中对语音动态过程进行建模,与前人在相关研究中基于连续状态空间的建模方式相比,模型结构更加简单,计算复杂度更低。该模型对语音中的元音段和辅音段采取了不同的建模方式,分别用于体现声道形状变化的连续特性和暂态特性。对于元音段,相应的模型状态通过声道共振参数来表示。其中表示元音音位目标和元辅音音渡目标的状态被定义为目标状态并相互独立。在目标状态之间则通过插入过渡状态来体现发音过程的连续性和状态之间的相关性。对于辅音段,相应的模型状态则直接通过谱参数来表示,并与上述元音状态相联接,共同用于表示连续语流。通过改进的Baum-Welch算法,以及一些有针对性的训练策略,模型参数可以由语音数据学习得到,各个状态的训练结果也体现出了一定的发音意义。
本文将所提出的隐式声道共振模型应用于语音识别和语音合成系统中。在面向汉语连续语流的识别系统中,文中针对这种声学模型的特点设计了相应的识别解码器。通过实验表明,与传统声学模型相比,本文所提出的声学模型可以有效地降低识别系统的错误率,对提高系统性能起到了很大作用。
在面向语音合成的应用中,基于这种隐式声道共振建模思想和训练方法,可以对倒谱和共振峰动态特征建立状态同步的声学模型,用于对现有的HMM语音合成技术进行改进。实验表明,在小数据量训练语料情况下,基于倒谱声学模型合成语音的共振峰轨迹与真实语音相差较大,而基于这种新型声学模型合成的共振峰轨迹与真实语音更为相符。在大数据量训练情况下,两种模型合成的共振峰轨迹基本一致,新模型的合成结果更加平滑,可用于对语音的音色调节。
通过以上研究表明,由于隐式声道共振模型能够更好地刻画语音的动态结构,因此该模型在提高语音识别和语音合成系统性能方面体现出一定的优势,并将在未来的应用中展现出更大的潜力。