论文部分内容阅读
随着大数据和人工智能的快速发展,语音识别的相关应用变得越来越普及,如今很多电子产品都通过语音交互进行操作,这让人们更加方便地享受到了现代化智能服务。如何更加高效的实现语音交互,减少噪声对系统识别性能的影响,提高系统的识别准确性是研究的重点所在。本文首先研究了语音信号的预处理和特征参数提取过程,针对梅尔频率倒谱系数(MFCC)只能反映声音信号的静态特性,而经验模态分解(EMD)能够更细致地刻画信号的非平稳特性,本文将EMD融入到MFCC特征提取中。实验结果表明,改进的特征参数提取方法有效地提高了系统的识别效果,在不同的信噪比下识别率最大提高了3.15%。在传统的声学建模中,高斯混合模型(GMM)和隐马尔科夫(HMM)混合模型一直占主导地位,本文在MATLAB上建立小词汇量识别系统进行实验,对比分析可得GMM-HMM相对于单一的HMM来说,对训练数据量的要求不高且具有更好的识别性能。针对GMM对复杂数据的建模能力不足的问题,在此混合模型的基础上采用具有更强建模能力的深度神经网络(DNN)来代替GMM得到新的模型结构,在Linux系统上创建kaldi语音识别工具箱,基于THCHS-30语音数据库实现了大词汇量的连续语音识别系统,实验结果表明DNN-HMM模型比GMM-HMM模型在识别错误率明显下降,且Fbank特征比MFCC更适合深度神经网络模型的训练。在添加噪声环境下,降噪自编码器(DAE)对深层模型进行预训练能够恢复被噪声破坏的信号,有效提升识别的准确性。