语音情感常用特征识别性能分析

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:fionazj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:在语音情感识别中,情感特征的选取与组合是重要环节。在包含6种情感的普通话情感语料库中,选取了一些常用的情感特征:Mel频率倒谱系数、基频、短时平均幅度能量、短时过零率和第一共振峰等,进行提取并计算得到12个统计量,最后利用基于支持向量机(SVM)的语音情感识别系统进行分类。实验结果表明该方法得到了较高的平均情感识别率,且情感特征的选取、抽取及建模是合理、有效的。同时,得到不同有效的语言情感特征的识别贡献率并对其进行排序。在传统语音情感识别研究中采用定性的情感特征识别分析,而该文采用定量的情感特征识别分析,为今后语音情感识别的相关研究特供了重要参考价值与帮助。
  关键词:语音情感识别;语音情感特征的选取;定量的情感特征识别分析;支持向量机
  中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2017)04-0173-02
  1 背景
  语音是人们交流的主要方式,语音信号不仅传递语义信息,同时承载了说话人的情感状态。情感因素的引入能使人机交互变得更加自然和谐。因此,语音信号的情感识别成为近年来智能人机交互领域的研究热点[1]。如何使计算机从语音信号中自动识别出说话人的情感状态及其变化,是实现自然人机交互界面的关键前提,具有很大的研究价值和应用价值[3]。例如:可以用于对电话服务中心用户紧急程度的分拣,从而提高服务质量;用于对汽车驾驶者的精神状态进行监控,从而在驾驶员疲劳时进行提醒,避免交通事故的发生[4]。
  2 语音情感识别系统结构
  本文的语音情感识别系统结构如图1所示,每个步骤之间通过样本数据进行关联。情感特征的提取,计算12个统计量参数和SVM建模是其中的关键环节。
  3 语音情感特征的提取
  3.1 MFCC特征
  MFCC通过构造人的听觉模型,以语音通过该模型的输出为声学特征,直接通过 DFT( 离散傅里叶变换) 进行变换,将频谱最终转化为倒谱域上的系数[6],具有较好的识别性能和抗噪能力,它的值大体上对应于实际频率的对数分布关系,具体关系可用式(1)表示:
  3.2 基音频率特征
  基音是指发浊音时声带振动所引起的周期性。声带振动频率称为基频。本文采用短时自相关函数来检测基音:
  3.3 能量特征
  语音信号的能量特征与情感的表达具有较强相关性[7-8]。语音信号能量通常有短时能量和短时平均能量两类。由于短时能量计算量较大且对高电平敏感,本文采用短时平均函数。
  假设第n 帧语音信号[xnm]的短时平均函数为[En],则[En]的估计表达式为:
  3.4 短时过零率
  短时过零率表示一帧语音中语音信号波形穿过横轴(零电平)的次数。它可以用来区分清音和浊音,这是因为语音信号中的高频段有高的过零率,低频段过零率较低。加窗后第n帧语音信号[xnm]的短时过零率为:
  3.5 共振峰特征
  共振峰是指在声音的频谱中能量相对集中的一些区域,不但是音质的决定因素,而且反映了声道(共振腔)的物理特征,代表了发音信息最直接的来源。本文采用线性预测法求取了第一共振峰。
  4 SVM分类模型的构建
  SVM是建立在结构风险最小化准则的基础上的,它根据有限的样本信息,通过对推广误差上界的最小化达到最大的泛化能力。对于线性可分的样本空间,该算法寻找最优分类超平面,能够同时最小化经验误差与最大化几何边缘区,最优分类超平面能够尽可能多地将两类样本正确地分离,同时使分离的两类样本距离超平面最远,这是一个受限的二次规划问题求解。
  对于非线性可分的问题,支持向量机的基本思想是: 利用核函数将输入特征的样本点映射到高维特征空间中,数据被超平面分割,在高维空间中变得线性可分,核函数以及超平面的构造是解决非线性可分问题的关键。核函数的形式及其参数的确定决定分类器类型和复杂程度。最优分类超平面保证不同类别能够正确分类,以使经验风险最小; 保证分类间隔达到最大,以使置信度最小。
  设有两类样本数据为( xi,yi) ,i = 1,2,…,L,x∈Rd,y∈{ 1,- 1} 是类别标号,SVM 需要解决下列优化问题:
  其中: w 为权系向量; b 为分类阈值; ξi≥0 为非负松弛变量;C 是错误惩罚因子,它控制着对错分样本的惩罚程度,影响对数据的拟合程度和模型的泛化能力[9]。ξi是松弛变量,控制着离群点的进一步处理。数据空间样本点 xi和 xj,使用数据空间到特征空间的映射函数Φ,并 应 用 核 函 数 变 换 等 式: ( xi,xj) → K( xi,xj) =Φ( xi) ·Φ( xj) ,最终得分类超平面函数为:
  5 实验与结果分析
  本文 实 验 所 用 语 音 库 为中科院汉语情感语料库CASIA[10] 。汉语情感语料库由中科院自动化所模式识别国家重点实验室人机语音交互课题组录制并提供。共包括两名男性和两名女性专业发音人,共分为6 种情感:生气( angry) 、害怕( fear) 、高兴( happy) 、中性( neutral)、难过( sad) 、惊喜( surprise) ,50 句录音脚本,最终得到 1 200 句语音情感。数据集以 16k Hz采样率,16 bit量化,wav 格式存储。实验中,首先对所有的1200句语料進行预处理、分帧和加窗,再基于各语音分析帧提取声学特征。
  本文实验的仿真实验环境为 MATLAB2012a。选取的情感特征为MFCC、基频、短时平均能量、短时过零率和第一共振峰。为了降低不同人在表达不同情感时的个人差异造成的影响,本文实验过程中将提取的情感特征进行归一化处理。归一化采取将同一个人的四种情感语音信号的情感特征放在一起归一化处理,并将归一化后的情感特征作为SVM 分类器的训练样本和测试样本。   实验采用 SVM 分类器, 使用台湾大学林智仁开发的 Libsvm 工具。Libsvm 能够快速并且有效实现 SVM 所需要的各种功能, 其中使用的核函数为RBF 核函数[11] 。为了验证生成模型的可靠性和实用性,本文采用10折交叉验证。重复实验10次,每次将90% 的 数 据用于训练,而10%留作测试数据。
  经过测试,实验得到的结果如表1。所从表1中的对角线上观察到,6 种 情 感 的 识 别 率 分 别 为 70%、75%、85%、90%、55%和95%。其中可以看到,高兴、中性、惊讶的识别率较高,样本的总识别率为77%。
  表1 测试样本识别结果
  [测试样本\
其他文献
工欲善其事,必先利其器,Windows Vista千好万好,在我的计算机上能跑起来才是真好。微软最近在官方网站上公布了Windows Vista的系统需求和推荐配置,与以前一样,系统需求之低相信会
抗生素作为上世纪开始问世的抗菌药物,在抗感染治疗、保护人类健康中发挥着至关重要的作用.伴随着抗生素在临床治疗和其他领域的广泛应用,细菌耐药现象日趋严重,已成为当今人
文中分别利用一维最大熵法、一维Otsu法及二维Otsu法对刀具磨损图像进行处理。相比较而言,二维Otsu法是一种效果较好的图像分割方法。针对二维Otsu在寻找最佳阈值时计算量大,提出了基于粒子群算法优化的二维Otsu法阈值分割方法。实验表明,在设定了合适的粒子群算法参数条件下,该算法不仅可精准地完成刀具磨损图像的分割,且提高了分割效率。
组策略管理起步组策略目前已是企业管理员管理系统和网络时的必用利器之一,回想当年DOS 6.22命令行的使用经历,不禁感叹信息技术和计算机管理技术的迅猛发展。从上世纪90年代末
移动学习被认为是一种未来的学习模式,能够为学习者提供一个十分方便有效的受教育环境,是未来学习不可缺少的一种学习模式,以实现随时随地的教与学。该文主要探索研究了移动
叶剑英在粉碎“四人帮”中“起了决定性作用”──纪念粉碎“四人帮”斗争胜利20周年张江明时光飞逝,粉碎“四人帮”的伟大胜利已有20周年了。1976年10月6日,中共中央政治局常委会执行党和
化州市经济发展的思考陈亚春改革开放以来,特别是“八五”时期,化州市经济增长速度比历史上任何时期都快,农业、工业、第三产业迅猛发展,投资环境大改变.1995年,化州市国内生产总值40.6亿元
试论中华民族凝聚力系统的破坏力张国仪调动一切积极因素,大力增强中华民族凝聚力,这是当前在建设有中国特色的社会主义伟大事业中,需要我们认真研究的重大课题。在这一研究过程