论文部分内容阅读
说话人的地方口音、非母语口音是汉语普通话语音识别系统实现推广应用面临的具有挑战性的问题。云南是一个多民族的省份,大多数民族有自己的语言,少数民族在全省各市县均有分布。因为这种特殊的地理、文化原因,带有民族口音的普通话无处不在。因此,研究云南少数民族语口音普通话语音识别,探索提高识别率的途径不仅拓宽了非母语口音语音识别的研究领域,而且也对推进民族地区的信息化具有积极的意义。
基于标准普通话的语音识别系统在识别带有云南少数民族语方言口音的普通话时,识别率会明显下降。本文基于云南少数民族语口音普通话语音识别框架,采用发音词典自适应技术,分别对云南少数民族语音库中的傣语、傈僳语、纳西语口音普通话建立了民族语口音的多发音字典,并将多发音词典应用到了识别中。本文的主要工作是:
(1)采用国家“863”标准普通话语音数据库语料训练隐马尔可夫模型,建立语音识别的基线系统。
(2)用云南少数民族语傣、傈僳和纳西语口音普通话语音数据库语料进行测试,将识别结果与标准音节标记序列进行动态对齐,计算混淆矩阵,从中找到民族语口音发音变异的规律。
(3)结合语言学家研究的云南省少数民族语口音普通话的发音特点,统计得到具有规律性的音节和声韵母的多发音变化,利用这些音节映射对扩展标准发音词典,针对每一个口音形成了具有民族语口音特色的普通话多发音词典,并分别将这3个多发音词典应用于傣、傈僳、纳西语的语音识别中。
实验结果表明,采用发音词典自适应技术构建的民族语口音多发音词典能够有效的提高少数民族语口音普通话的识别率。同时,本文为研究非母语口音普通话语音识别提供了一个可扩展的研究方案。