论文部分内容阅读
语音识别是近年来高速发展的一项技术,由于其研究的复杂性和重要的理论价值与广阔的应用前景,长期以来一直是人们研究的难点和热点。到目前为止,语音识别研究大部分以线性系统理论为基础,主要应用隐马尔可夫模型(HMM)与动态时间规整(DTW)等技术。随着研究的逐步深入,人们发现语音是一个复杂的非线性过程,基于线性系统理论的语音识别方法的局限性越来越凸显。语音识别若要取得突破,必须引入非线性理论的方法。近年来,随着人工神经网络(ANN)等非线性理论研究和应用的逐渐深入,将这些理论应用于语音识别成为可能。因此,本文将以神经网络为基础,针对非特定人孤立词语音识别,应用BP网络与RBF神经网络模型来构建和研究语音识别系统。
论文主要研究了基于神经网络的语音识别。对语音识别的预处理、特征提取与识别算法等环节进行了计算验证、性能分析和结果评述,对本文所使用到的几种识别方法的识别性能与应用特点进行了比较,分析讨论了在语音识别研究中神经网络的设计原则以及不同的特征参数等方面对语音识别结果的影响,研究构造了相应的语音识别模型与算法,并完成了实验软件平台的设计与开发。
线性预测倒谱系数LPCC和Mel频率倒谱系数(MFCC)是语音识别技术中应用广泛的特征参数,针对这两种不同的特征参数提取方案,并将提取出的参数用在不同的神经网络上,分析其性能差异:LPCC计算量小,但其抗噪性能差;由于Mel频率尺度可较充分地反映人耳对频率及幅度的非线性感知特性,以及人耳在听到复杂声音时所表现的频率分析和谱合成特性。实验结果表明MFCC方法具有高效识别性能和抗噪能力。而且LPCC为参数的网络比MFCC为参数的网络训练起来收敛更慢,用在本文数字语音识别中识别效果较差。
论文详细介绍了BP神经网络和RBF神经网络基本原理及其训练算法。对RBF网络和BP网络识别分析时采用的是MFCC为提取特征,在处理语音数据库得到的特征样本上采用了十折交叉验证方法,使用强大的数学工具MATLAB7.0,编写了仿真程序,给出了相应的仿真曲线和预测结果,并对两种神经网络的识别结果进行了比较和分析:实验表明BP网络比RBF网络识别效果要好,但RBF所需训练时间要比BP网络少很多。因此,在实际语音识别的应用中应根据需要选取不同的网络。