非母语说话人汉语普通话连续语音识别研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:qzx1986
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动语音识别技术的研究开始于二十世纪五十年代,距今已有五十多年的历史。尽管当前的汉语语音识别技术取得了很多进步,然而,到目前为止,无论是听写机还是电话语音识别,仍未能广泛应用,其中,用户情况的多样性所带来的鲁棒性(Robustness)问题是语音识别技术要走向实用必须解决的挑战之一。对于汉语普通话,方言口音语音识别问题是近几年研究重点之一。而直接针对非母语话者汉语普通话的语音识别研究才刚刚起步。虽然已经提出了很多提高非母语语音识别的方法,比如声学模型自适应、发音自适应等,但是总的来说识别率还是很低。本文研究如何基于语言模型提高非母语语音识别系统性能。 本论文的工作包括大词汇量连续语音识别系统的建立和非母语语音识别研究两部分。第一部分工作包括应用语言模型和声学模型基于HTK平台构建一个大词汇汉语连续语音识别系统;第二部分工作:首先使用不带语言模型的识别系统对非母语的普通话语音进行识别,接着使用带有基于字的二元和三元语言模型的识别系统对同样的语音进行识别,并比较二者的性能;其次,使用带有基于词的语言模型的识别系统对同样的语音进行识别,并与带有基于字的语言模型的识别系统的识别结果进行比较,以分析语言模型基本单元的选取对提高非母语语音识别性能的影响。实验结果表明,应用二元文法语言模型和三元文法语言模型的识别系统,对带口音的语音进行识别,平均误识别率分别降低了3.18%和9.93%。基于词语言模型的识别系统与基于字语言模型的识别系统的识别效果差不多,而且基于词的识别系统所需的识别时间过长,不能满足实际需求。 本文所做的实验均在操作系统为WindowsXP的环境下运行,使用VC6.0,HTK3.2工具包编程实现的。所采用的语音数据库来自国家“863”汉语普通话语音识别训练库和少数民族口音普通话语音集(LMAMSC)。
其他文献
ECG数据常常需要进行压缩以便于存储和传输,因此ECG数据压缩是当今医学信号处理领域的重要问题。而量化是数据压缩系统中的重要组成部分,采用量化技术,能够有目的地丢弃一些不重
协作通信技术能够有效延拓系统的覆盖范围,增强信息传输可靠性,实现满分集增益,并提高无线频谱效率。本文主要围绕基于放大转发策略的中继协作通信系统中的空间信道配对(Spatial
目前,通信业正在发生一场全球范围内的技术革命,基于软交换的下一代网络被广泛地研究、应用。电信网络的演变给业务特征冲突的检测带来新的挑战。为了研究NGN业务特征冲突,需要
本文通过对荣华二采区10
期刊
近年来,人机交互方式逐渐从以“计算机为中心”向“以人为中心”转变,这种转变的核心是建立支持人类思维过程并与人类思维趋同的人机交互方式。以笔计算为核心的笔式交互,以其既
研究背景、存在的科学问题及研究意义:  昆虫的发育过程受到三大激素:蜕皮激素(20-羟基蜕皮酮,20-Hydroxyecdysone,20E),保幼激素(Juvenile hormone,JH)以及胰岛素(insulin)共
荷叶是睡莲属植物莲( Nelumbo nucifera Gaertn )的叶片,在全世界有着广泛的分布,是一种既是食品又是药品的天然植物。荷叶含有多种药理活性成分。多年的临床经验表明,荷叶复方具有很强的降脂、减肥功能,其中黄酮和生物碱为主要活性物质,但它们在调节血脂、减肥方面的功效一直不明确,限制了广阔的荷叶资源开发利用的深度。本文旨在通过对荷叶黄酮的提取、精制、分离纯化,继而对其进行深度研究,并
本文通过对荣华二采区10
期刊
本文通过对荣华二采区10
期刊
近年来,数字电视在全球范围内得到了迅猛的发展,数字化已经成为全球广播电视业的必然发展方向。自2005年,国际发达国家的数字电视用户均已超过总电视用户的一半以上,数字电视产业