论文部分内容阅读
耳语音识别是个全新的课题,可应用于公共场合下的手机通讯、失音者的语音恢复和公安司法工作的某些特殊需要等方面。本文首先结合语音基础知识,根据耳语音信号发音模型,介绍了耳语音的生理、声学和感知特点。指出耳语发音与正常发音生理的差异导致了它们声学特性的差异,其中最主要的就是耳语音是噪声激励源,没有基频和耳语音共振峰的偏移。根据汉语耳语音的特性,主要做了以下几方面的工作:
1.目前国内外关于耳语音的研究相对较少,国内还没有一个比较完整的汉语耳语音库以供研究。本文就以此出发,建立了一个由单人女声发音的包含1172个字和98个近音词的汉语耳语音库。然后通过对两个听觉测试实验数据的统计分析,研究了人耳对汉语耳语音字和近音词声调的辨认率特征,得出人耳对孤立字四个声调的辨认率由高到低的排序为三声>四声>二声>一声。同时也得出入耳对词声调的辨认能力比字要强得多。
2.汉语是有调语言,不同的声调代表不同的字义。在汉语耳语音识别时,为了提高的识别率,必须进行耳语音声调判决。本文讨论了表征耳语音声调的各特征参数,得出幅值包络和音长这两个特征参量能够反映出汉语耳语音声调的特征,基于此参数对汉语耳语音孤立字进行声调识别实验,其声调识别率已经达到了人耳的平均辨认率,为连续耳语音声调识别研究打下了基础。
文中在以上工作的基础上,建立了汉语耳语音孤立字识别系统。通过实验比较分析,验证了语音增强处理在耳语音识别系统中的有效性,得出MFCC结合汉语声调模型中的幅值包络参数可作为汉语耳语音自动识别的特征量,它利用Single-Stream 模型将汉语耳语音的声调信息应用在识别系统中取得了较好的效果,最佳识别率达到了90.4%。