面向语音情感识别的深度学习算法研究

来源 :东南大学 | 被引量 : 5次 | 上传用户：loveliness900619

【摘要】

：

众所周知,语音是人机交互最自然和最理想的方式之一。目前,人机交互中机器虽已实现与人类进行交流的基本需求,但往往忽略了语音中承载的丰富的情感信息,还远无法像人与人交流

【作者】

：

朱芳枚

【出处】

：

东南大学

【发表日期】

：

2018年01期

【关键词】

：

语音情感识别深度学习栈式自编码循环神经网络注意力机制

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

众所周知,语音是人机交互最自然和最理想的方式之一。目前,人机交互中机器虽已实现与人类进行交流的基本需求,但往往忽略了语音中承载的丰富的情感信息,还远无法像人与人交流那般自然和友好。未来,提升人机交互的体验需要语音情感识别的辅助。近年来,深度学习已经在各个领域中都取得了巨大的成功,本文主要研究了基于深度学习的语音情感识别,并提出了若干改进算法用于改善语音情感识别。本文主要工作和创新点如下:(1)学习了语音情感识别的研究背景和意义,并从语音情感领域的四大问题:语音情感描述模型、语音情感数据库、语音情感特征、语音情感识别算法入手总结了相关的研究历史和现状。(2)介绍了在语音情感识别领域的特征处理工作,包括语音信号的预处理;关键特征的提取,如短时能量、短时过零率、共振峰、梅尔倒谱系数等;介绍了语音情感特征参数的全局统计特性的提取;最后介绍了常用的特征降维算法,并详述了本文实验使用的主分成分析算法,对特征进行“白化”和降维,为后续实验提供数据支持。(3)介绍了模式识别、机器学习以及它们之间的联系,并详细研究了在语音情感识别领域常使用的机器学习算法,包括K近邻准则、softmax回归、支持向量机、稀疏表示、神经网络,为后续提出的算法提供算法对比支持。研究了深度学习在特征学习上的优势和一些主流的深度学习结构,为后续章节提供理论支持。(4)提出了一种改进的栈式自编码结构用于语音情感识别,该结构既利用了降噪自编码器的鲁棒性,也利用了稀疏自编码器稀疏性。该结构主要包括2层,第一层使用降噪自编码学习一个比输入特征维数大的隐藏特征;为提高算法性能,第二层采用稀疏自编码从大量神经元中学习稀疏性特征,并基于得到的特征进行训练学习,最终将特征输入分类器中,进行分类识别。算法首先采用逐层预训练的方法,达到网络参数全面初始化的目的,然后通过反向传播算法对整个网络进行微调,从而生成用于识别的栈式自编码网络。实验显示,相较于单独使用栈式降噪或稀疏自编码,该结构具有更好的识别效果。此外,基于CASIA子库的对比实验显示,该结构远远优于K近邻算法,识别率提高了53.7%,与稀疏表示方法相比提高了29.8%,比传统支持向量机提高14.28%,比人工神经网络提高1.9%。在自行录制语音库中该结构的识别率比人工神经网络提高了1.64%。(5)提出了一种融合注意力机制的循环神经网络结构,该结构能结合循环神经网络在学习时序数据方面的优势以及注意力机制可以学习特征权重的特点,使用简单的手工特征就能学习到更优的深度加权特征。该结构主要包含4层网络,第一层使用双向循环神经网络学习输入的时间依赖关系;第二层使用单向循环神经网络对特征进行再一次的学习,得到深度特征;第三层使用注意力机制层学习特征的权重,并对特征进行加权融合,使学习到的特征更具表征能力;第四层使用全连层网络对加权后的特征进行学习,并将学习后的特征送入到分类器中进行分类。在CASIA_A库的实验表明,该结构的平均识别率最优达到88.19%,识别率比仅使用RNNs结构高出4%~5%,并且该结构明显提高了高兴和愤怒这两种情感的识别率。在CASIA_B库中的实验表明,该结构最优识别率达到89.21%,比他人提出的使用深度自编码结构在平均识别率上提高了5.71%,在不同情感类别上的识别率也均有提高。

其他文献

色谱新技术在药物分析上的应用

<正> 薄层层析法具有设备简单、成本较低、操作方便、分析速度快等优点。TLC还可作为HPLC选择色谱体系,预测分离的先导技术。近年来,TLC技术获得了全面发展,在展开技术方面,

期刊

HPTLC检测灵敏度高效薄层层析环糊精化学键合相层析法体内药物分析

互联网时代《旅游市场营销学》教学思考

高校《旅游市场营销学》课程教学应对＂互联网＋＂环境,存在课程内容亟需调整和教学方法需转变的问题。在内容上应增加旅游网络营销内容和丰富旅游企业网络营销案例;在教学方法上采

期刊

互联网本科旅游市场营销学教学方法

财务风险成因及其控制策略研究

财务风险是企业面临的主要风险之一,只要存在债务融资,就存在财务风险.在分析企业财务风险的特征、成因等的基础上,提出了企业财务风险控制的策略.

期刊

财务风险风险特征风险成因控制策略

盘肠结开锣中国结上道——中国结初探

一、背景随着探讨和反思中国传统文化的深入和发展,我们看见了那散发着传统浓郁芳香的中国结,又重新焕发了青春.北京申奥的成功,让全中国人都欣喜若狂,而作为北京申奥标志的

期刊

盘肠结盘长结

信息生动度的劝服效果:一个认知心理学的研究路径

本文借助认知心理学中的生动度假设(Vividness Hypothesis)和双重编码理论(Dual Coding Theory)详细探究受众处理视觉信息时的心理动因。作者以HPV疫苗广告为个案,中西方论文

期刊

信息生动度想象力信息处理健康传播控制实验HPV疫苗广告

新闻,让小学语文教育真实发声

小学语文教育的最终目的,是将语文教育的工具性和人文性进行统一,然而,在现实的课堂之中,两者的统一在一定程度上还有待磨合。新闻,每天都在我们的生活之中扮演着重要的角色,

期刊

新闻小学语文教育

第四纪以来中国北方出现过的喜暖动物及其古环境意义

经过长期演化,中国动物地理格局才形成了现今大致以淮河-秦岭-横断山-喜马拉雅山一线为界线的两大动物区系,该线以北属于古北界,以南属于东洋界.中国北方第四纪的化石点有数

期刊

哺乳动物东洋界中国北方第四纪古环境

杏李营养生长生理特性研究

本研究以‘风味皇后’、‘恐龙蛋’、‘味厚’、‘味帝’、‘味王’5个杏李品种为供试材料,为掌握干旱区杏李营养生长生理特性,研究了杏李的生长物候期、枝叶、茎干、根系生

学位

杏李生长物候期枝叶茎生长动态树干液流光合特性

国外航天AIT厂房天车污染物防护技术措施跟踪研究

航天AIT厂房的天车在使用过程中经常会出现机械摩擦产生的金属粉末和润滑油滴落等污染物,可能对AIT厂房和航天器造成污染。文章通过对国外航天AIT厂房天车污染物防护技术措施

期刊

航天AIT厂房天车污染防护

OT和Ghrelin在小鼠下丘脑的分布及其与肥胖的关系

为了探讨OT和Ghrelin在小鼠下丘脑的分布及其与肥胖的关系,本研究采用免疫组化SABC法对OT和Ghrelin在正常小鼠和肥胖小鼠下丘脑调节摄食的核团中表达变化进行了研究,并研究了

会议

催产素Ghrelin下丘脑肥胖小鼠

面向语音情感识别的深度学习算法研究

其他学术论文