论文部分内容阅读
摘要:在语音情感识别中,情感特征的选取与组合是重要环节。在包含6种情感的普通话情感语料库中,选取了一些常用的情感特征:Mel频率倒谱系数、基频、短时平均幅度能量、短时过零率和第一共振峰等,进行提取并计算得到12个统计量,最后利用基于支持向量机(SVM)的语音情感识别系统进行分类。实验结果表明该方法得到了较高的平均情感识别率,且情感特征的选取、抽取及建模是合理、有效的。同时,得到不同有效的语言情感特征的识别贡献率并对其进行排序。在传统语音情感识别研究中采用定性的情感特征识别分析,而该文采用定量的情感特征识别分析,为今后语音情感识别的相关研究特供了重要参考价值与帮助。
关键词:语音情感识别;语音情感特征的选取;定量的情感特征识别分析;支持向量机
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2017)04-0173-02
1 背景
语音是人们交流的主要方式,语音信号不仅传递语义信息,同时承载了说话人的情感状态。情感因素的引入能使人机交互变得更加自然和谐。因此,语音信号的情感识别成为近年来智能人机交互领域的研究热点[1]。如何使计算机从语音信号中自动识别出说话人的情感状态及其变化,是实现自然人机交互界面的关键前提,具有很大的研究价值和应用价值[3]。例如:可以用于对电话服务中心用户紧急程度的分拣,从而提高服务质量;用于对汽车驾驶者的精神状态进行监控,从而在驾驶员疲劳时进行提醒,避免交通事故的发生[4]。
2 语音情感识别系统结构
本文的语音情感识别系统结构如图1所示,每个步骤之间通过样本数据进行关联。情感特征的提取,计算12个统计量参数和SVM建模是其中的关键环节。
3 语音情感特征的提取
3.1 MFCC特征
MFCC通过构造人的听觉模型,以语音通过该模型的输出为声学特征,直接通过 DFT( 离散傅里叶变换) 进行变换,将频谱最终转化为倒谱域上的系数[6],具有较好的识别性能和抗噪能力,它的值大体上对应于实际频率的对数分布关系,具体关系可用式(1)表示:
3.2 基音频率特征
基音是指发浊音时声带振动所引起的周期性。声带振动频率称为基频。本文采用短时自相关函数来检测基音:
3.3 能量特征
语音信号的能量特征与情感的表达具有较强相关性[7-8]。语音信号能量通常有短时能量和短时平均能量两类。由于短时能量计算量较大且对高电平敏感,本文采用短时平均函数。
假设第n 帧语音信号[xnm]的短时平均函数为[En],则[En]的估计表达式为:
3.4 短时过零率
短时过零率表示一帧语音中语音信号波形穿过横轴(零电平)的次数。它可以用来区分清音和浊音,这是因为语音信号中的高频段有高的过零率,低频段过零率较低。加窗后第n帧语音信号[xnm]的短时过零率为:
3.5 共振峰特征
共振峰是指在声音的频谱中能量相对集中的一些区域,不但是音质的决定因素,而且反映了声道(共振腔)的物理特征,代表了发音信息最直接的来源。本文采用线性预测法求取了第一共振峰。
4 SVM分类模型的构建
SVM是建立在结构风险最小化准则的基础上的,它根据有限的样本信息,通过对推广误差上界的最小化达到最大的泛化能力。对于线性可分的样本空间,该算法寻找最优分类超平面,能够同时最小化经验误差与最大化几何边缘区,最优分类超平面能够尽可能多地将两类样本正确地分离,同时使分离的两类样本距离超平面最远,这是一个受限的二次规划问题求解。
对于非线性可分的问题,支持向量机的基本思想是: 利用核函数将输入特征的样本点映射到高维特征空间中,数据被超平面分割,在高维空间中变得线性可分,核函数以及超平面的构造是解决非线性可分问题的关键。核函数的形式及其参数的确定决定分类器类型和复杂程度。最优分类超平面保证不同类别能够正确分类,以使经验风险最小; 保证分类间隔达到最大,以使置信度最小。
设有两类样本数据为( xi,yi) ,i = 1,2,…,L,x∈Rd,y∈{ 1,- 1} 是类别标号,SVM 需要解决下列优化问题:
其中: w 为权系向量; b 为分类阈值; ξi≥0 为非负松弛变量;C 是错误惩罚因子,它控制着对错分样本的惩罚程度,影响对数据的拟合程度和模型的泛化能力[9]。ξi是松弛变量,控制着离群点的进一步处理。数据空间样本点 xi和 xj,使用数据空间到特征空间的映射函数Φ,并 应 用 核 函 数 变 换 等 式: ( xi,xj) → K( xi,xj) =Φ( xi) ·Φ( xj) ,最终得分类超平面函数为:
5 实验与结果分析
本文 实 验 所 用 语 音 库 为中科院汉语情感语料库CASIA[10] 。汉语情感语料库由中科院自动化所模式识别国家重点实验室人机语音交互课题组录制并提供。共包括两名男性和两名女性专业发音人,共分为6 种情感:生气( angry) 、害怕( fear) 、高兴( happy) 、中性( neutral)、难过( sad) 、惊喜( surprise) ,50 句录音脚本,最终得到 1 200 句语音情感。数据集以 16k Hz采样率,16 bit量化,wav 格式存储。实验中,首先对所有的1200句语料進行预处理、分帧和加窗,再基于各语音分析帧提取声学特征。
本文实验的仿真实验环境为 MATLAB2012a。选取的情感特征为MFCC、基频、短时平均能量、短时过零率和第一共振峰。为了降低不同人在表达不同情感时的个人差异造成的影响,本文实验过程中将提取的情感特征进行归一化处理。归一化采取将同一个人的四种情感语音信号的情感特征放在一起归一化处理,并将归一化后的情感特征作为SVM 分类器的训练样本和测试样本。 实验采用 SVM 分类器, 使用台湾大学林智仁开发的 Libsvm 工具。Libsvm 能够快速并且有效实现 SVM 所需要的各种功能, 其中使用的核函数为RBF 核函数[11] 。为了验证生成模型的可靠性和实用性,本文采用10折交叉验证。重复实验10次,每次将90% 的 数 据用于训练,而10%留作测试数据。
经过测试,实验得到的结果如表1。所从表1中的对角线上观察到,6 种 情 感 的 识 别 率 分 别 为 70%、75%、85%、90%、55%和95%。其中可以看到,高兴、中性、惊讶的识别率较高,样本的总识别率为77%。
表1 测试样本识别结果
[测试样本\
关键词:语音情感识别;语音情感特征的选取;定量的情感特征识别分析;支持向量机
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2017)04-0173-02
1 背景
语音是人们交流的主要方式,语音信号不仅传递语义信息,同时承载了说话人的情感状态。情感因素的引入能使人机交互变得更加自然和谐。因此,语音信号的情感识别成为近年来智能人机交互领域的研究热点[1]。如何使计算机从语音信号中自动识别出说话人的情感状态及其变化,是实现自然人机交互界面的关键前提,具有很大的研究价值和应用价值[3]。例如:可以用于对电话服务中心用户紧急程度的分拣,从而提高服务质量;用于对汽车驾驶者的精神状态进行监控,从而在驾驶员疲劳时进行提醒,避免交通事故的发生[4]。
2 语音情感识别系统结构
本文的语音情感识别系统结构如图1所示,每个步骤之间通过样本数据进行关联。情感特征的提取,计算12个统计量参数和SVM建模是其中的关键环节。
3 语音情感特征的提取
3.1 MFCC特征
MFCC通过构造人的听觉模型,以语音通过该模型的输出为声学特征,直接通过 DFT( 离散傅里叶变换) 进行变换,将频谱最终转化为倒谱域上的系数[6],具有较好的识别性能和抗噪能力,它的值大体上对应于实际频率的对数分布关系,具体关系可用式(1)表示:
3.2 基音频率特征
基音是指发浊音时声带振动所引起的周期性。声带振动频率称为基频。本文采用短时自相关函数来检测基音:
3.3 能量特征
语音信号的能量特征与情感的表达具有较强相关性[7-8]。语音信号能量通常有短时能量和短时平均能量两类。由于短时能量计算量较大且对高电平敏感,本文采用短时平均函数。
假设第n 帧语音信号[xnm]的短时平均函数为[En],则[En]的估计表达式为:
3.4 短时过零率
短时过零率表示一帧语音中语音信号波形穿过横轴(零电平)的次数。它可以用来区分清音和浊音,这是因为语音信号中的高频段有高的过零率,低频段过零率较低。加窗后第n帧语音信号[xnm]的短时过零率为:
3.5 共振峰特征
共振峰是指在声音的频谱中能量相对集中的一些区域,不但是音质的决定因素,而且反映了声道(共振腔)的物理特征,代表了发音信息最直接的来源。本文采用线性预测法求取了第一共振峰。
4 SVM分类模型的构建
SVM是建立在结构风险最小化准则的基础上的,它根据有限的样本信息,通过对推广误差上界的最小化达到最大的泛化能力。对于线性可分的样本空间,该算法寻找最优分类超平面,能够同时最小化经验误差与最大化几何边缘区,最优分类超平面能够尽可能多地将两类样本正确地分离,同时使分离的两类样本距离超平面最远,这是一个受限的二次规划问题求解。
对于非线性可分的问题,支持向量机的基本思想是: 利用核函数将输入特征的样本点映射到高维特征空间中,数据被超平面分割,在高维空间中变得线性可分,核函数以及超平面的构造是解决非线性可分问题的关键。核函数的形式及其参数的确定决定分类器类型和复杂程度。最优分类超平面保证不同类别能够正确分类,以使经验风险最小; 保证分类间隔达到最大,以使置信度最小。
设有两类样本数据为( xi,yi) ,i = 1,2,…,L,x∈Rd,y∈{ 1,- 1} 是类别标号,SVM 需要解决下列优化问题:
其中: w 为权系向量; b 为分类阈值; ξi≥0 为非负松弛变量;C 是错误惩罚因子,它控制着对错分样本的惩罚程度,影响对数据的拟合程度和模型的泛化能力[9]。ξi是松弛变量,控制着离群点的进一步处理。数据空间样本点 xi和 xj,使用数据空间到特征空间的映射函数Φ,并 应 用 核 函 数 变 换 等 式: ( xi,xj) → K( xi,xj) =Φ( xi) ·Φ( xj) ,最终得分类超平面函数为:
5 实验与结果分析
本文 实 验 所 用 语 音 库 为中科院汉语情感语料库CASIA[10] 。汉语情感语料库由中科院自动化所模式识别国家重点实验室人机语音交互课题组录制并提供。共包括两名男性和两名女性专业发音人,共分为6 种情感:生气( angry) 、害怕( fear) 、高兴( happy) 、中性( neutral)、难过( sad) 、惊喜( surprise) ,50 句录音脚本,最终得到 1 200 句语音情感。数据集以 16k Hz采样率,16 bit量化,wav 格式存储。实验中,首先对所有的1200句语料進行预处理、分帧和加窗,再基于各语音分析帧提取声学特征。
本文实验的仿真实验环境为 MATLAB2012a。选取的情感特征为MFCC、基频、短时平均能量、短时过零率和第一共振峰。为了降低不同人在表达不同情感时的个人差异造成的影响,本文实验过程中将提取的情感特征进行归一化处理。归一化采取将同一个人的四种情感语音信号的情感特征放在一起归一化处理,并将归一化后的情感特征作为SVM 分类器的训练样本和测试样本。 实验采用 SVM 分类器, 使用台湾大学林智仁开发的 Libsvm 工具。Libsvm 能够快速并且有效实现 SVM 所需要的各种功能, 其中使用的核函数为RBF 核函数[11] 。为了验证生成模型的可靠性和实用性,本文采用10折交叉验证。重复实验10次,每次将90% 的 数 据用于训练,而10%留作测试数据。
经过测试,实验得到的结果如表1。所从表1中的对角线上观察到,6 种 情 感 的 识 别 率 分 别 为 70%、75%、85%、90%、55%和95%。其中可以看到,高兴、中性、惊讶的识别率较高,样本的总识别率为77%。
表1 测试样本识别结果
[测试样本\