基于神经网络的语音识别系统应用研究

来源 :中国地质大学(武汉) | 被引量 : 0次 | 上传用户:xiaomi1028
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别是近年来高速发展的一项技术,由于其研究的复杂性和重要的理论价值与广阔的应用前景,长期以来一直是人们研究的难点和热点。到目前为止,语音识别研究大部分以线性系统理论为基础,主要应用隐马尔可夫模型(HMM)与动态时间规整(DTW)等技术。随着研究的逐步深入,人们发现语音是一个复杂的非线性过程,基于线性系统理论的语音识别方法的局限性越来越凸显。语音识别若要取得突破,必须引入非线性理论的方法。近年来,随着人工神经网络(ANN)等非线性理论研究和应用的逐渐深入,将这些理论应用于语音识别成为可能。因此,本文将以神经网络为基础,针对非特定人孤立词语音识别,应用BP网络与RBF神经网络模型来构建和研究语音识别系统。 论文主要研究了基于神经网络的语音识别。对语音识别的预处理、特征提取与识别算法等环节进行了计算验证、性能分析和结果评述,对本文所使用到的几种识别方法的识别性能与应用特点进行了比较,分析讨论了在语音识别研究中神经网络的设计原则以及不同的特征参数等方面对语音识别结果的影响,研究构造了相应的语音识别模型与算法,并完成了实验软件平台的设计与开发。 线性预测倒谱系数LPCC和Mel频率倒谱系数(MFCC)是语音识别技术中应用广泛的特征参数,针对这两种不同的特征参数提取方案,并将提取出的参数用在不同的神经网络上,分析其性能差异:LPCC计算量小,但其抗噪性能差;由于Mel频率尺度可较充分地反映人耳对频率及幅度的非线性感知特性,以及人耳在听到复杂声音时所表现的频率分析和谱合成特性。实验结果表明MFCC方法具有高效识别性能和抗噪能力。而且LPCC为参数的网络比MFCC为参数的网络训练起来收敛更慢,用在本文数字语音识别中识别效果较差。 论文详细介绍了BP神经网络和RBF神经网络基本原理及其训练算法。对RBF网络和BP网络识别分析时采用的是MFCC为提取特征,在处理语音数据库得到的特征样本上采用了十折交叉验证方法,使用强大的数学工具MATLAB7.0,编写了仿真程序,给出了相应的仿真曲线和预测结果,并对两种神经网络的识别结果进行了比较和分析:实验表明BP网络比RBF网络识别效果要好,但RBF所需训练时间要比BP网络少很多。因此,在实际语音识别的应用中应根据需要选取不同的网络。
其他文献
近期区块链被提高到国家战略的高度,成为公众视野的技术高地,区块链作为构造信任的技术具有极其重要的价值.传统的CA服务器在信任系统的中心位置,但是对于一些公文是由多个对
合成孔径雷达(Synthetic Aperture Radar,SAR)是一种高分辨率的成像雷达,用于军事任务时,常常需要在受到干扰的环境中工作。为了提高SAR的抗干扰性能,本文采用随机噪声信号作为SA
线粒体是真核细胞内重要的细胞器,由内外两层膜组成,在细胞内一直处于分裂和融合的动态平衡,以维持线粒体正常的形态和功能。目前已知的在哺乳动物细胞中介导线粒体外膜融合的蛋
天线波束赋形是一种随相控阵雷达发展起来的技术,它通过改变相控阵天线的馈源激励来形成各种各样的方向图,在敌方干扰的方向上形成零陷,使雷达具有抗电子干扰的性能。对于成像合
伴随着信息时代的到来,无线通信系统已经渗透到社会各个领域,并在社会经济发展起着越来越重要的作用,而固定的频谱分配方式已经越来越限制着无线通信业务的广泛应用与发展。
电脑绣花机的刺绣质量依赖于电控系统的可靠性、电机控制的精确性、机械结构的精密性等各种因素,本课题从提高电机的运行性能入手,以深圳市山龙电控设备有限公司的特种电脑刺绣
近年来,合成孔径雷达成像技术快速发展,在军事和民用领域得到了越来越多的应用。同时,用户对多模式、多通道、多极化等新体制越来越高的要求也给SAR系统带来了巨大的挑战。SAR面
河川沙塘鳢Odontobutis potamophila(Günther)俗名塘鳢鱼、土布鱼等,隶属鲈形目,鰕虎鱼亚目,塘鳢科,是淡水底栖的小型肉食性鱼类,广泛分布于我国长江中下游及其支流、钱塘江、闽
目前随着电子技术的飞速发展,基于网络的实时监控系统已成为监测系统追求的新目标。油井安全生产工程参数的测量在整个油井安全生产过程中起着至关重要的作用。本文的研究目标
城市是人类文明发展到一定程度的产物,随着人类的发展和城市的出现,城市已经成为了人类主要的活动场所。随着越来越多的人口涌入城市,减少了农村人口的数量,带来了城市的快速发展