论文部分内容阅读
众所周知,语音是人机交互最自然和最理想的方式之一。目前,人机交互中机器虽已实现与人类进行交流的基本需求,但往往忽略了语音中承载的丰富的情感信息,还远无法像人与人交流那般自然和友好。未来,提升人机交互的体验需要语音情感识别的辅助。近年来,深度学习已经在各个领域中都取得了巨大的成功,本文主要研究了基于深度学习的语音情感识别,并提出了若干改进算法用于改善语音情感识别。本文主要工作和创新点如下:(1)学习了语音情感识别的研究背景和意义,并从语音情感领域的四大问题:语音情感描述模型、语音情感数据库、语音情感特征、语音情感识别算法入手总结了相关的研究历史和现状。(2)介绍了在语音情感识别领域的特征处理工作,包括语音信号的预处理;关键特征的提取,如短时能量、短时过零率、共振峰、梅尔倒谱系数等;介绍了语音情感特征参数的全局统计特性的提取;最后介绍了常用的特征降维算法,并详述了本文实验使用的主分成分析算法,对特征进行“白化”和降维,为后续实验提供数据支持。(3)介绍了模式识别、机器学习以及它们之间的联系,并详细研究了在语音情感识别领域常使用的机器学习算法,包括K近邻准则、softmax回归、支持向量机、稀疏表示、神经网络,为后续提出的算法提供算法对比支持。研究了深度学习在特征学习上的优势和一些主流的深度学习结构,为后续章节提供理论支持。(4)提出了一种改进的栈式自编码结构用于语音情感识别,该结构既利用了降噪自编码器的鲁棒性,也利用了稀疏自编码器稀疏性。该结构主要包括2层,第一层使用降噪自编码学习一个比输入特征维数大的隐藏特征;为提高算法性能,第二层采用稀疏自编码从大量神经元中学习稀疏性特征,并基于得到的特征进行训练学习,最终将特征输入分类器中,进行分类识别。算法首先采用逐层预训练的方法,达到网络参数全面初始化的目的,然后通过反向传播算法对整个网络进行微调,从而生成用于识别的栈式自编码网络。实验显示,相较于单独使用栈式降噪或稀疏自编码,该结构具有更好的识别效果。此外,基于CASIA子库的对比实验显示,该结构远远优于K近邻算法,识别率提高了53.7%,与稀疏表示方法相比提高了29.8%,比传统支持向量机提高14.28%,比人工神经网络提高1.9%。在自行录制语音库中该结构的识别率比人工神经网络提高了1.64%。(5)提出了一种融合注意力机制的循环神经网络结构,该结构能结合循环神经网络在学习时序数据方面的优势以及注意力机制可以学习特征权重的特点,使用简单的手工特征就能学习到更优的深度加权特征。该结构主要包含4层网络,第一层使用双向循环神经网络学习输入的时间依赖关系;第二层使用单向循环神经网络对特征进行再一次的学习,得到深度特征;第三层使用注意力机制层学习特征的权重,并对特征进行加权融合,使学习到的特征更具表征能力;第四层使用全连层网络对加权后的特征进行学习,并将学习后的特征送入到分类器中进行分类。在CASIA_A库的实验表明,该结构的平均识别率最优达到88.19%,识别率比仅使用RNNs结构高出4%~5%,并且该结构明显提高了高兴和愤怒这两种情感的识别率。在CASIA_B库中的实验表明,该结构最优识别率达到89.21%,比他人提出的使用深度自编码结构在平均识别率上提高了5.71%,在不同情感类别上的识别率也均有提高。