论文部分内容阅读
语音识别要真正走向成熟和完善,还必须解决用户多样性和环境多样性的问题.说话人口音的差异是用户多样性的一个重要方面,基于标准口音训练得到的识别系统,在说话人带有非标准口音时,系统的识别率将急剧下降,采用口音自适应技术能有效提高非母语说话人语音识别系统的正确识别率,而要采用口音自适应技术则必须首先解决说话人的口音识别问题.该文分别采用高斯混合模型(GMM)和隐马尔可夫模型(HMM)来实现非母语说话人的口音识别.在基于高斯混合模型的口音识别系统中,针对云南境内白族、纳西族、傈僳族三个典型的少数民族口音及汉族普通话口音,采用高斯混合模型来训练每个民族的口音模型,并用少量的测试语音获得较为满意的口音分类识别率.文中通过实验给出,对云南民族口音汉语普通话口音识别,当GMM混合数为16,语音特征采用39维MFCC及其一阶、二阶差分参数时,口音识别正确率可达90.8%.在基于隐马尔可夫模型的非母语说话人口音识别系统中,针对云南境内说话人母语为纳西语、傈僳语的汉语普通话语音,采用隐马尔可夫模型(HMM),由标准普通话语音库训练得到基线系统的声学模型(HMM<,STD>).然后以基线系统的声学模型为初始模型,分别用母语为纳西语、傈僳语的汉语普通话语音训练得到各自的声学模型(HMM<,NX>和HMM<,LS>).对于未知语音,根据各识别系统的概率得分,采用最大后验概率准则进行口音的分类判决.实验表明,基于HMM的口音识别系统,其正确识别率达93.0%.该文共分5章讨论.第一章为绪论部分,主要介绍了语音识别的基本概念及常用的语音识别方法,并简要说明了当前语音识别面临的主要问题;第二章语音信号分析技术,主要从数字信号处理的角度说明了语音信号的分析方法,并介绍了几种目前最有效的语音识别特征参数提取方法;第三章隐马尔可夫模型(HMM)技术,从语音识别的角度,详细讨论了HMM用于语音识别所必须解决的三个基本问题,即识别问题、状态匹配问题和模型的训练问题,该技术是当前语音识别领域的研究热点;第四章基于高斯混合模型的口音识别实验;第五章基于隐马尔可夫模型的口音识别实验.该文的实验均是在Microsoft Windows 2000环境下使用Matlab6.0,HTK3.0工具包编程实现的.所采用的语音数据来自云南民族口音汉语普通话语音数据库以及国家"863"汉语普通话语音识别训练库.