基于因子分析的说话人识别技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：ohngahng

【摘要】

：

自动说话人识别技术，简单来说就是根据语音对说话人进行自动区分，从而进行说话人身份鉴别与认证的技术。该技术在国家安全方面一直有着重要的意义。另外，随着通信以及互联网技术

【作者】

：

梁春燕

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2014年期

【关键词】

：

说话人识别技术因子分析系统算法优化邻域保持嵌入技术

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

自动说话人识别技术，简单来说就是根据语音对说话人进行自动区分，从而进行说话人身份鉴别与认证的技术。该技术在国家安全方面一直有着重要的意义。另外，随着通信以及互联网技术的发展，说话人识别技术在多媒体信息处理及检索方面也开始被应用起来。　　当前在实验室环境中，由于语音的传输信道比较单一、信噪比相对较高，说话人识别系统能取得良好的识别性能。但是在实际应用中，语音环境的复杂多变，例如环境噪声以及信道调制的干扰等，使系统的识别性能急剧下降，这对说话人识别系统的鲁棒性提出了很大的挑战。因此，如何有效地减弱或去除环境噪声以及信道干扰等对系统的负面影响，从而提高说话人识别系统的鲁棒性，成为了该领域研究的热点及重点之一。　　实际应用中说话人识别的鲁棒性问题，本质上可以归结为两个方面:一方面是由于环境噪声对训练和测试语音质量的影响，另一方面是由于目标说话人的训练环境和测试语音环境的不匹配，主要归结为信道的不匹配。目前，常用的提高说话人识别系统鲁棒性的算法可以粗略地归结为三个方面:特征域、模型域以及得分域。特征域的算法主要着眼于如何提取更加鲁棒的特征参数，从而使特征参数受环境变化的影响尽可能小。模型域的算法更多地是针对信道问题的补偿，使得目标说话人的模型与测试语音的信道相匹配。得分域算法主要是通过各种得分规整算法来消除因信道和环境噪声等带来的得分差异。这些算法在目前的说话人识别系统中发挥了重要的作用，能够在一定程度上对信道的不匹配问题进行补偿，但是在语音信噪比相对比较低的时候，这些算法的作用往往比较有限。　　本文致力于说话人识别中鲁棒性技术的研究，主要针对电话语音，并基于NIST说话人评测中的数据作为实验依据。首先，深入研究了传统说话人识别中的各种建模算法、信道补偿算法以及得分判决算法;其次，在主流的因子分析系统的基础上进行了理论分析、并提出相应的改进算法。主要研究工作及创新点包括:　　1.研究并实现了说话人识别中的关键技术-联合因子分析(Joint Factor Analysis，JFA)算法。在得分判决模块，提出了一种基于识别对(trial)信息的鉴别性判决函数，该鉴别性判决函数通过对代表“True”和“False”两种识别对信息的超向量所对应的贡献因子向量进行重新估计，来进一步提高两种识别对的分类性能。　　2.研究并实现了总变化因子分析（Total Variability）技术。该技术在对说话人进行建模的时候，不区分语音中的说话人信息和信道信息，而是将整个语音空间（总变化空间）进行建模，然后在这个空间上对训练和测试语音计算其相应的总变化因子(i-vector)，将其作为支持向量机(Support Vector Machine，SVM)建模和分类的特征。为了降低信道对识别的影响，本文使用线性判别分析（Linear Discriminant Analysis，LDA）降维技术以及类内协方差规整(Within Class Covariance Normalization,WCCN)技术对i-vector进行信道补偿。　　针对总变化因子分析的不足，本文将邻域保持嵌入技术(NeighborhoodPreserving Embedding，NPE)引入到基于i-vector的说话人识别中。与总变化因子分析技术相比，基于邻域保持嵌入的因子分析技术一方面作为一种流形学习方法，可以通过构建邻接图获取数据的局部邻域结构信息;另一方面，该技术可以进行有监督训练，能够有效地利用训练数据中的说话人标注信息。因此，NPE能够有效地克服现有总变化因子分析技术存在的不足，可以进一步提高说话人识别性能。　　3.研究了基于概率线性判别分析(Probability Linear Discriminant Analysis，PLDA)建模技术的因子分析系统，并在此基础上，研究并实现了韵律特征的提取和参数化建模。与传统声学层短时特征美尔频率倒谱系数(MelFrequency Cepstral Coefficient，MFCC)不同的是，韵律特征参数作为一种长时特征，在声学环境变化时能够保持一定的稳定性，不容易受信道及噪声的影响。由于特征参数上的互补性，基于高层特征参数与声学层参数的系统在融合后可以提升系统的整体识别性能。

其他文献

深水多波束测深声纳信号仿真三维模型研究及应用

学位

基于回波数据的机载SAR运动补偿实时性研究

合成孔径雷达(SAR)是一种主动式微波遥感系统，其结合脉冲压缩和合成孔径技术，实现了利用小孔径天线取得高分辨率的成像特性。因其具有全天候、全天时获取高分辨率雷达图像的工

学位

机载合成孔径雷达运动补偿实时性回波数据

高分辨率光学遥感图像港口舰船目标识别技术研究

高分辨率光学图像港口舰船检测与识别技术在民用和军事领域发挥着重要的作用。随着卫星成像技术的发展，遥感图像数据在时间、空间上的分辨率越来越高。传统的使用图像分割或舰

学位

遥感图像港口舰船目标识别目标定位

水声通信信道均衡理论与关键技术研究

海洋信道通信带宽窄，时-空-频变复杂，而且多途扩展严重，在较高速率通信下，时延扩展能够覆盖几十甚至上百个码元符号，造成严重的码间干扰(intersymbol interference，ISI)，为实现可靠

学位

水声通信信道均衡理论时间反转技术盲均衡器

电刺激参数与电诱发听神经复合动作电位的关系研究

多导人工耳蜗已广泛应用于治疗重度及深度耳聋疾病，其通过电流直接刺激听神经使耳聋患者产生听觉。由于当前人工耳蜗装置提供的电刺激并不能够完全有效地模仿听觉外周生理功能

学位

耳聋疾病听神经动作电位概率分布模型刺激脉宽听神经数量语音编码策略

SuperV DSP验证平台中数据传输模块的软硬件设计与实现

DSP作为通用的数字信号处理器，在通信、数值运算、图像处理等诸多领域有着广泛应用，其强大的数据运算能力特别适合运算密集的应用场合。现代社会对DSP的应用越来越广泛，对新DSP

学位

数字信号处理器验证平台数据传输模块硬件设计

用于XBPM的嵌入式数据采集分析系统

X光位置测量对于要求高品质、高稳定性的同步辐射光源具有重要的作用，它是同步辐射装置向广大用户提供可稳定使用光束的必不可少的条件之一，其测量值还是实验用户需要及时了解

学位

X光位置探测器Libera Photon数据采集分析输入重建算法

面向交通场景的空间布局理解和语义分割方法研究

交通场景理解是成功实现自动驾驶和车辆导航等应用的关键技术之一。研究视觉系统在处理交通场景信息时的关注特性、视觉敏感度、感知及快速解读能力,对交通场景理解具有重大

学位

交通场景理解道路检测多视觉特征提取超像素块马尔科夫随机场随机森林回归条件随机场

信息中心网络中内嵌缓存优化关键技术研究

信息中心网络作为一种革命性的网络体系结构，它将传统的面向主机的端到端通信模式转变为以内容为中心的通信模式。作为一个崭新的概念，信息中心网络带给网络的革命性改变引人关

学位

信息中心网络体系结构缓存系统资源分配

基于深度学习的人群计数

最近几年，由于人群计数在智能监控和安防领域广泛的应用价值和社会意义，使得单张图像和监控视频中的人群计数问题在学术界和工业界受到了越来越多的关注。但是，在现实场景中，严重

学位

图像处理人群计数深度学习卷积神经网络

基于因子分析的说话人识别技术研究

其他学术论文