【摘 要】
:
随着计算机行业的不断发展,人工智能走进人们的生活,通过语音实现人机交互正逐渐成为主流的人机交互方式,语音情感识别能够让机器感知人类的情绪,听懂人的情感,在心理健康状态监控,教育辅助,个性化内容推荐,客服质量监控方面都具有广泛应用前景,但目前语音情感识别系统的识别率较低不足以大规模商用,提高情感识别准确度是一个亟待解决的难题。语音情感识别一般的系统框架主要分为两部分:语音情感特征提取和情感分类,本文
论文部分内容阅读
随着计算机行业的不断发展,人工智能走进人们的生活,通过语音实现人机交互正逐渐成为主流的人机交互方式,语音情感识别能够让机器感知人类的情绪,听懂人的情感,在心理健康状态监控,教育辅助,个性化内容推荐,客服质量监控方面都具有广泛应用前景,但目前语音情感识别系统的识别率较低不足以大规模商用,提高情感识别准确度是一个亟待解决的难题。语音情感识别一般的系统框架主要分为两部分:语音情感特征提取和情感分类,本文针对于分类器模型提出了三个创新点进行优化:1.针对传统LSTM模型将隐藏的变长向量统一编码成固定长度向量容易造成信息损失而且将每帧语音视为了具有相同的重要性,与实际情况不符的问题。本文提出了一种基于LSTM的自注意力机制模型,将情绪隐藏向量表示为情绪的帧级隐藏向量的加权平均值,其中帧级隐藏向量的权重由注意机制自动学习,使得模型能够提取出更具有情绪代表性的特征来区分不同语音情绪,提升情绪识别准确率。2.针对LSTM模型单一子空间的特征表示。在自注意力的基础上,本文还提出了多头的注意力机制模型去学习不同子空间位置的特征表示,使得模型能够在多个子空间捕捉到更全面的情绪特征,从而提高情绪识别的准确度。3.针对情感数据集采集成本高但深度学习模型对数据量需求大的问题。本文提出了一种通过按不同比例增加噪声和混响的方式快速且低成本扩充有限数据集,从而提升情感识别的系统性能。为验证算法性能,本文将新提出的三种的优化方法分别与LSTM基准模型在数据集IEMOCAP和EMODB上进行对比实验。实验结果表明三种优化方法均具有更优越的性能,并且给出了各种方法的适用场景和使用边界条件。最后组合三种方法能够获得最大的性能提升,相比LSTM基准模型,本文提出的注意力机制模型在数据集EMODB上情感识别错误率下降22.78%,在IEMOCAP上情感识别错误率下降16.09%。
其他文献
透视作为科学的观察方法和表现方法,是美术院校三大基础技法理论之一,也是每位学生必须掌握和熟练运用的基本技能,在现代素描教学体系中占有十分重要的位置。
As a scientif
研究目的:本文旨在开展实验性研究,在对幼儿基础动作技能发展特点与身体素质水平进行分析的基础上,对二者之间的关系进行探究,同时探索家庭客观环境因素对二者关系的影响,以
对私有财产权进行限制的行政行为,在本质上源于多元社会价值与保护私有财产权之间的价值冲突。公共部门在特定条件下需要一定程度地对财产权进行限制从而平衡价值冲突,因此精
东北地区自然地理环境十分优越,这里土地肥沃,自然资源丰富,农林牧渔业兼备,有着大体的一致性。东北三省也是一个多民族聚居地区。这里不仅生活着汉族,还生活着鄂温克、鄂伦
随着遗产旅游的兴起和人们对工业遗产价值的重新认识,工业遗产的旅游开发与保护越来越受到社会及旅游界的关注。寻求适于工业遗产的旅游开发模式,在保护工业遗产的同时,进行
目前的土地集约利用评价指标多集中于土地利用的现存状态,较少考虑到人地关系对用地效益的影响。而"压力—状态—响应(Pressure-State-Response,PSR)"框架很好地揭示出土地利
“5.12”汶川大地震给我们带来了一系列的科学反思:地震造成的破坏如此之大,与人类不合理的工程活动密切相关。所以,我们要加强工程地质理论研究,开展山区城镇建设地质灾害风险管
利用辽阳平原区地下水水位监测资料,绘制了2012-2015年地下水流场,分析了地下水漏斗的特征,建立了地下水回灌模型,并对不同回灌方案下地下水的回灌量以及回灌效果进行了预测
<正>拍照、拍视频,发朋友圈刷屏,村屯美景"亮"人眼。最近,崇左市扶绥县柳桥镇坡利村坡淡屯和东罗镇渠坎村新岜蕉屯先后浩浩荡荡地来了一批特殊的"客人"。他们走村串巷,察村貌