论文部分内容阅读
自动语音识别技术的研究开始于二十世纪五十年代,距今已有五十多年的历史。尽管当前的汉语语音识别技术取得了很多进步,然而,到目前为止,无论是听写机还是电话语音识别,仍未能广泛应用,其中,用户情况的多样性所带来的鲁棒性(Robustness)问题是语音识别技术要走向实用必须解决的挑战之一。对于汉语普通话,方言口音语音识别问题是近几年研究重点之一。而直接针对非母语话者汉语普通话的语音识别研究才刚刚起步。虽然已经提出了很多提高非母语语音识别的方法,比如声学模型自适应、发音自适应等,但是总的来说识别率还是很低。本文研究如何基于语言模型提高非母语语音识别系统性能。
本论文的工作包括大词汇量连续语音识别系统的建立和非母语语音识别研究两部分。第一部分工作包括应用语言模型和声学模型基于HTK平台构建一个大词汇汉语连续语音识别系统;第二部分工作:首先使用不带语言模型的识别系统对非母语的普通话语音进行识别,接着使用带有基于字的二元和三元语言模型的识别系统对同样的语音进行识别,并比较二者的性能;其次,使用带有基于词的语言模型的识别系统对同样的语音进行识别,并与带有基于字的语言模型的识别系统的识别结果进行比较,以分析语言模型基本单元的选取对提高非母语语音识别性能的影响。实验结果表明,应用二元文法语言模型和三元文法语言模型的识别系统,对带口音的语音进行识别,平均误识别率分别降低了3.18%和9.93%。基于词语言模型的识别系统与基于字语言模型的识别系统的识别效果差不多,而且基于词的识别系统所需的识别时间过长,不能满足实际需求。
本文所做的实验均在操作系统为WindowsXP的环境下运行,使用VC6.0,HTK3.2工具包编程实现的。所采用的语音数据库来自国家“863”汉语普通话语音识别训练库和少数民族口音普通话语音集(LMAMSC)。