基于发音词典自适应的非母语口音汉语普通话语音识别

来源 :云南大学 | 被引量 : 0次 | 上传用户:clgsjzht
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人的地方口音、非母语口音是汉语普通话语音识别系统实现推广应用面临的具有挑战性的问题。云南是一个多民族的省份,大多数民族有自己的语言,少数民族在全省各市县均有分布。因为这种特殊的地理、文化原因,带有民族口音的普通话无处不在。因此,研究云南少数民族语口音普通话语音识别,探索提高识别率的途径不仅拓宽了非母语口音语音识别的研究领域,而且也对推进民族地区的信息化具有积极的意义。 基于标准普通话的语音识别系统在识别带有云南少数民族语方言口音的普通话时,识别率会明显下降。本文基于云南少数民族语口音普通话语音识别框架,采用发音词典自适应技术,分别对云南少数民族语音库中的傣语、傈僳语、纳西语口音普通话建立了民族语口音的多发音字典,并将多发音词典应用到了识别中。本文的主要工作是: (1)采用国家“863”标准普通话语音数据库语料训练隐马尔可夫模型,建立语音识别的基线系统。 (2)用云南少数民族语傣、傈僳和纳西语口音普通话语音数据库语料进行测试,将识别结果与标准音节标记序列进行动态对齐,计算混淆矩阵,从中找到民族语口音发音变异的规律。 (3)结合语言学家研究的云南省少数民族语口音普通话的发音特点,统计得到具有规律性的音节和声韵母的多发音变化,利用这些音节映射对扩展标准发音词典,针对每一个口音形成了具有民族语口音特色的普通话多发音词典,并分别将这3个多发音词典应用于傣、傈僳、纳西语的语音识别中。 实验结果表明,采用发音词典自适应技术构建的民族语口音多发音词典能够有效的提高少数民族语口音普通话的识别率。同时,本文为研究非母语口音普通话语音识别提供了一个可扩展的研究方案。
其他文献
导弹的精确制导在现代国防中占有越来越重要的地位。导弹与目标间相对运动的运动学和动力学模型是一个非常复杂的非线性系统,传统制导中常用的线性方法将不再适用。因此采用新
以太网以其成本低廉、开放性和兼容性好等优点,目前已成为使用最为广泛的网络通信技术,是商业领域中网络通信市场的主要占有者。随着其速率的不断提高和全双工交换技术的运用
睡眠是一项非常重要的生命过程,是人体重要的生理活动,它与人的健康、学习、生活、工作等之间的关系甚为密切,但至今人类对其了解还很少。失眠是一种最为常见的睡眠障碍性疾
基于结构光系统的物体三维轮廓测量技术,由于具有测量速度快、非接触式等好的特性,因而在科学和商业领域得到了广泛的应用。一个基本的结构光系统包括一个相机和一个光栅条纹投
近红外光谱(简称NIRS)作为一种现场、快速、无损、无污染的绿色分析技术,近年来,被广泛应用于石油化工、食品药品、制药等行业。随着精密分析仪器的广泛使用,产生的高维、海量NIRS
随着人机交互技术的发展,越来越多的实际产品中采用了较传统方式而言更为友好的人机交互形式。而语音合成技术,作为人机交互技术中的关键技术之一,已经被广泛的应用到许多嵌入式
从二维图像恢复三维物体可见表面的几何结构(称为三维重建)是计算机视觉的主要目的之一。三维重建的一个关键步骤—图像对应点的确定也是计算机视觉中的一个基本问题。目前国
学位
自20世纪90年代中期开始,非真实感绘制(NPR)逐渐成为计算机视觉和计算机图形学的研究热点之一。   非真实感绘制和传统真实感绘制的研究内容不同,其研究的目标不在于绘制结
当前,开发具有完全自主功能的智能移动机器人尚未成熟,但是通过Internet提供的方便开放的人机交互接口,在机器人的遥操作过程中融入操作者的智能与经验,使移动机器人具备在室内不
人类与灵长类的视皮层目标识别性能远远优于最佳的机器视觉系统。因此,自上个世纪50年代起人们开始关注生物视觉启发的计算机视觉模型的研究。1999年,Riesenhuber和Poggio提出