论文部分内容阅读
语音合成是目前言语工程研究的热点问题。目前的语音合成主要有3种方法:共振峰合成、发音参数合成和波形拼接合成。波形拼接合成选用的单元是预先录制的声音,在选用这些单元的基础上进行一些调整,音质比自然。但是单元和单元之间的不连续性会降低合成语音的整体自然度。而且波形拼接的方法对单元内部的调节手段有限,不够灵活。共振峰合成和发音参数合成可以解决波形拼接合成的这些不足,这两种合成方法从最小的语音单元出发合成语音,具有很大的灵活性,利于调节各种参数获得需要的效果。发音参数合成是对各发音器官在言语产生过程中的动作建立准确的数学模型,目前还有很大的难度。共振峰合成是对发音参数合成的一种简化处理,直接模拟语音信号,而不是发音器官的动作,比发音参数合成简单可行。但是,共振峰合成还有很多问题没有得到解决,如擦音、塞音和鼻音的合成效果不是很好。本文的目的就是尝试解决共振峰合成器中鼻音合成的问题。 鼻音作为一类音与元音和其他的辅音相比有很大的不同。在发鼻音的过程中,鼻腔参与对嗓音的调制。此时,口腔、咽腔和鼻腔形成一个复杂的共振器。此外,鼻腔内部结构复杂,这些因素导致鼻音的声学表现十分复杂,而且不稳定。在语图上可以观察到不同人的语图往往差异很大。即使同一个人在不同时间所发的鼻音,语图也存在较大的差别。给人们进行语音分析带来了很大的困难。 本文从鼻音的听辨实验出发,考察了音节中鼻音信息的时间分布情况及鼻音信息的类型。通过听辨实验,可以把音节中鼻音的信息分为3类:发音方式信息,静态发音位置信息和动态发音位置信息。其中发音方式信息和静态发音位置信息包含在鼻音段,动态发音位置信息包含在元音过渡段。不同鼻音的动态发音位置信息在音节中所处的位置也不相同。当把发音方式信息和动态发音位置信息结合起来时,可以获得90%左右的听辨正确率。静态发音位置信息和动态发音位置信息相互冲突时,动态发音位置信息起主要作用。 听辨实验的基础上考察了音节中鼻音段的声学表现。鼻声母[m]、[n]的4000Hz以下的极点数目相同,位置也大致相当;鼻声母[m]与[n],在1000Hz左右少一个零点。鼻尾[n]与[(η)]4000Hz以下的极点数目相同,位置也大致相当;鼻尾[(η)]与[n]相比,在1000Hz左右和1700Hz左右没有零点。声调对鼻尾的声学表现有影响。同一个鼻音在鼻声母位置和鼻尾位置,声学表现也有差异。 接着考察了鼻音对元音的影响。从元音的二维谱量取参数P0(250 Hz左右的谱峰的能量)、A1(第一共振峰范围内最强谐波的能量)、P1(1000Hz左右最强谐波的能量)、P2(2500~3000Hz范围内共振峰的能量)。分别采用A1-P0,A1-P1,A1-P2作为量化元音鼻化程度的参数,考察了对于不同的元音[a]、[i]、[u]其被鼻化的表现方式的差异。元音鼻化后在250Hz附近出现弱的鼻音共振峰,1000Hz与2000Hz之间出现几个能量较弱的谱峰。对于元音[a],A1-P0的值鼻化后与鼻化前相比均一致减小;对于元音[i],A1-P1的值鼻化后与鼻化前相比均一致减小;对于元音[u],A1-P2的值鼻化后与鼻化前相比均一致减小。 接着考察了连续语流中鼻尾丢失的情况。通过统计分析,发现:1.含鼻尾的音节的后继音节起首位置的发音方式,对鼻尾丢失有显著影响。2.超音段因素中的某些因素对鼻尾丢失有显著影响。含鼻尾音节自身的声调对鼻尾的丢失有显著影响。音节的后边界对鼻尾的丢失也有显著影响。3.声调与重音之间、声调与后边界之间、声调与前边界之间、后继音段发音方式与声调之间、后继音段发音方式与重音之间对鼻尾存丢失的作用存在相互影响。