论文部分内容阅读
语音识别技术的研究及应用正处于方兴未艾时期。由于汉语具有结构复杂、以单音节为主、同音字多、方言种类多等特点,造成了对汉语语音识别的障碍。针对孤立的汉语词,传统的DTW、HMM等识别方法已经基本上能将其识别出来,但仍然达不到人们期望的精度。本文提出一种基于CDHMM和BP的混合语音识别模型,可以有效地提高对于孤立汉语词的识别效率。 本文的研究工作主要分为两个部分:一是对小词汇量、非特定人的孤立汉语词识别的关键技术的研究;二是对汉语语音在实际中应用模型的研究。针对孤立汉语词识别,本文利用CDHMM和BP在语音处理中的优异特性,提出了一种基于CDHMM和BP的混合语音识别模型。该模型以Viterbi解码输出的状态转移概率矩阵作为反向传播(BP)神经网络的输入。这是由于离散隐马尔科夫(DHMM)容易造成很大的量化误差,故采用连续密度的隐马尔科夫模型(CDHMM)。而又考虑到BP神经网络的非线性映射能力,因此采用BP神经网络作为语音识别输出部分。实验证明,这种混合模型在孤立词的识别上相较于HMM模型,其识别率提高了3-4个百分点。 针对汉语语音的应用,本文设计出了基于音节相似度算法的语音查询系统和校园网页的浏览系统。该种系统以中词汇量、连接词为基础,采用Microsoft提供的语音开发平台为基础。该系统利用SDK得到一个初始识别,再根据音节相似度算法,让初始结果与词库相匹配,相似度越大,即默认为识别结果;最后利用默认的识别结果查询师生表和浏览网页。结果表明,采用音节相似度算法,可以使得对中词库量的语音识别率可以达到90%以上。