论文部分内容阅读
本文系统地研究了汉语语音识别系统在嵌入式设备语音交互应用中的三个关键问题,即如何降低语音识别系统的计算和存储资源消耗、提高语音识别系统的鲁棒性、以及处理中国人说英语和汉英双语混合语音识别所面临的建模和搜索问题。
在降低语音识别系统的计算和存储资源消耗方面:
1.研究了声学模型参数共享技术,提出了基于连续概率分布函数的TM-SDCHMM模型和基于离散概率分布函数的SDC—DHMM模型,在不降低模型精度或略微降低模型精度的情况下,减少了模型复杂度。
2.通过简化声学得分计算,和基于在线路径可信度的高精度路径裁减,降低了搜索空间大小,提高了搜索解码的效率。
3.针对定点处理器,提出了语音识别系统的定点化的数据表示、模型参数预运算和声学得分计算方案,提高了语音识别系统在定点处理器上的运行速度。
在提高语音识别系统的鲁棒性方面:
4.在信号空间,提出了面向信号处理的语音综合预处理方法,适用于复杂的嵌入式语音应用环境,包括:异常信号检测和过滤、基于TMWF的语音增强和基于子空间能量和边缘检测滤波器的语音端点检测。
5.在特征空间和模型空间,研究了特征规整、特征平滑和Multi-condition的声学模型训练方法。
6.在系统应用层次,研究了多候选机制、基于后验概率和基于音素混淆度的可信度度量技术、基于自适应增益控制的背景噪声抑制和基于引导词语法的0OV拒识,提高了语音识别系统在实际应用环境下的鲁棒性。
在处理中国人说英语和汉英双语混合语音识别方面:
7.在分析中国人的英语口音语音库的基础上,提出了扩展的英语声学建模单元,使得中国式英语也能够达到较高的识别率。
8.在分析双语混合识别模型精度不匹配的问题的基础上,提出了通过手工调整模型精度均衡和混合建模自动均衡模型精度两种方法来解决这个问题。并针对汉英双语独立建模和混合建模的三音子声学模型,分别给出了相应的搜索框架。
本文的研究成果已经成功应用于语音拨号软件和不同的嵌入式设备、嵌入式操作系统、嵌入式微处理器中。