论文部分内容阅读
语音是人类交流最重要的手段之一,是人们传递信息最快捷和最直接的方式。语音信号在传达语义信息的同时,也传递着说话人的情感状态,人们希望计算机能够拥有人类的这种情感交流能力。如何使机器快速准确地识别情感并理解情感,成为人工智能和语音识别技术研究的关键,语音情感识别已经成为研究者备受关注的课题之一。语音情感识别主要包含情感语音特征提取、情感语音特征降维和语音情感识别这三个关键技术。论文围绕这三个方面进行了相关研究,主要研究工作如下:
1)情感语音信号预处理。采用中科院自动化研究所录制的 CASIA汉语情感语料库,对情感语音信号进行预加重、分帧加窗和清浊音判别预处理。采用一阶 F IR高通滤波器实现预加重。通过研究现有的清浊音判别算法,提出了小波变换结合残差信号谐波和(W-SRH)的清浊音判别方法,能够有效实现清浊音判别。
2)情感语音特征提取。计算发音速率、短时能量和Mel频率倒谱系数(MFCC),采用残差信号谐波和(SRH)计算基音频率,采用线性预测(LPC)方法提取共振峰参数,并利用MATLAB进行仿真。研究分析现有的声门波获取方法,提出了一种基于残差信号谐波和的基音同步迭代自适应逆滤波算法(SRH-PSIAIF),用于获取声门波信号,并分析了声门波信号的频谱特征,即抛物线频谱参数(PSP)和谐波丰富因子(HRF)。
3)情感语音特征降维。将发音速率和短时能量、基音频率、前三个共振峰、12阶MFCC系数的最大值、最小值、变化范围和平均值构成一个特征矢量,采用主成分分析(PCA)方法对特征矢量进行降维,去除特征之间的相关性和冗余性,选用方差显著的特征用于语音情感识别。
4)语音情感识别。分别采用BP神经网络算法、栈式自编码深度学习算法,对降维之后的特征矢量进行情感识别,正确率分别为81.67%和89.17%。在此基础上,融合了声门波频谱特征PSP和HRF,对语音信号进行情感识别,正确率分别可达
84.17%和91.25%。由此可见,声门波PSP和HRF特征能够有效地应用于语音情感识别,并且栈式自编码算法应用于语音情感识别比BP神经网络算法更有效。
论文的研究成果能够应用于人工智能和人机交互、情绪认知和情感机器人等领域。
1)情感语音信号预处理。采用中科院自动化研究所录制的 CASIA汉语情感语料库,对情感语音信号进行预加重、分帧加窗和清浊音判别预处理。采用一阶 F IR高通滤波器实现预加重。通过研究现有的清浊音判别算法,提出了小波变换结合残差信号谐波和(W-SRH)的清浊音判别方法,能够有效实现清浊音判别。
2)情感语音特征提取。计算发音速率、短时能量和Mel频率倒谱系数(MFCC),采用残差信号谐波和(SRH)计算基音频率,采用线性预测(LPC)方法提取共振峰参数,并利用MATLAB进行仿真。研究分析现有的声门波获取方法,提出了一种基于残差信号谐波和的基音同步迭代自适应逆滤波算法(SRH-PSIAIF),用于获取声门波信号,并分析了声门波信号的频谱特征,即抛物线频谱参数(PSP)和谐波丰富因子(HRF)。
3)情感语音特征降维。将发音速率和短时能量、基音频率、前三个共振峰、12阶MFCC系数的最大值、最小值、变化范围和平均值构成一个特征矢量,采用主成分分析(PCA)方法对特征矢量进行降维,去除特征之间的相关性和冗余性,选用方差显著的特征用于语音情感识别。
4)语音情感识别。分别采用BP神经网络算法、栈式自编码深度学习算法,对降维之后的特征矢量进行情感识别,正确率分别为81.67%和89.17%。在此基础上,融合了声门波频谱特征PSP和HRF,对语音信号进行情感识别,正确率分别可达
84.17%和91.25%。由此可见,声门波PSP和HRF特征能够有效地应用于语音情感识别,并且栈式自编码算法应用于语音情感识别比BP神经网络算法更有效。
论文的研究成果能够应用于人工智能和人机交互、情绪认知和情感机器人等领域。