论文部分内容阅读
让机器具有“听”、“说”人类语言的能力是人类的理想,这个理想,在信息时代正逐步变成现实。语音识别正是解决机器“听”懂人类语言的一项研究。本论文主要就具有云南地方口音的普通话识别做了一定的研究。
论文参考了国内外关于语音识别研究的发展情况,从基于HMM(Hidden MarkovModel)的声学模型建立等方面对语音识别进行了研究,详细论述了提高地方口音语音识别率的意义和增强语音识别系统性能的方法。
HTK(HMM Toolkit)是英国剑桥大学语音组开发的一个极方便的、使用连续密度函数隐Markov模型来创建语音识别系统的软件工具包。本论文根据云南省曲靖地区人说普通话时明显带有地方口音的现状,在作者自己采集的曲靖口音语音数据的基础上,利用HTKI具包对具有云南口音(曲靖地区)的普通话语音进行识别,通过改进识别方法,采用了多种HMM建模方式来比较其语音识别方面的性能。首先,使用863标准普通话数据来训练基线系统;其次,用训练好的基线系统,对曲靖口音普通话进行了测试;再调整训练集和测试集的数据,训练出不同组的HMM模型,来测试曲靖口音普通话,比较多组实验的测试结果,采用不同途径建模降低识别错误率。论文最后在HTK平台上,采用了MLLR算法对曲靖口音的普通话语音进行了说话人自适应实验,进一步提高了系统的识别率。
本文所做的实验均在操作系统为Windows XP的环境下运行,使用HTK3.2工具包实现。所采用的语音数据库来自“863”汉语普通话语音数据库和自己录制的曲靖口音普通话语音数据库。