基于因子分析的说话人识别技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:ohngahng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动说话人识别技术,简单来说就是根据语音对说话人进行自动区分,从而进行说话人身份鉴别与认证的技术。该技术在国家安全方面一直有着重要的意义。另外,随着通信以及互联网技术的发展,说话人识别技术在多媒体信息处理及检索方面也开始被应用起来。  当前在实验室环境中,由于语音的传输信道比较单一、信噪比相对较高,说话人识别系统能取得良好的识别性能。但是在实际应用中,语音环境的复杂多变,例如环境噪声以及信道调制的干扰等,使系统的识别性能急剧下降,这对说话人识别系统的鲁棒性提出了很大的挑战。因此,如何有效地减弱或去除环境噪声以及信道干扰等对系统的负面影响,从而提高说话人识别系统的鲁棒性,成为了该领域研究的热点及重点之一。  实际应用中说话人识别的鲁棒性问题,本质上可以归结为两个方面:一方面是由于环境噪声对训练和测试语音质量的影响,另一方面是由于目标说话人的训练环境和测试语音环境的不匹配,主要归结为信道的不匹配。目前,常用的提高说话人识别系统鲁棒性的算法可以粗略地归结为三个方面:特征域、模型域以及得分域。特征域的算法主要着眼于如何提取更加鲁棒的特征参数,从而使特征参数受环境变化的影响尽可能小。模型域的算法更多地是针对信道问题的补偿,使得目标说话人的模型与测试语音的信道相匹配。得分域算法主要是通过各种得分规整算法来消除因信道和环境噪声等带来的得分差异。这些算法在目前的说话人识别系统中发挥了重要的作用,能够在一定程度上对信道的不匹配问题进行补偿,但是在语音信噪比相对比较低的时候,这些算法的作用往往比较有限。  本文致力于说话人识别中鲁棒性技术的研究,主要针对电话语音,并基于NIST说话人评测中的数据作为实验依据。首先,深入研究了传统说话人识别中的各种建模算法、信道补偿算法以及得分判决算法;其次,在主流的因子分析系统的基础上进行了理论分析、并提出相应的改进算法。主要研究工作及创新点包括:  1.研究并实现了说话人识别中的关键技术-联合因子分析(Joint Factor Analysis,JFA)算法。在得分判决模块,提出了一种基于识别对(trial)信息的鉴别性判决函数,该鉴别性判决函数通过对代表“True”和“False”两种识别对信息的超向量所对应的贡献因子向量进行重新估计,来进一步提高两种识别对的分类性能。  2.研究并实现了总变化因子分析(Total Variability)技术。该技术在对说话人进行建模的时候,不区分语音中的说话人信息和信道信息,而是将整个语音空间(总变化空间)进行建模,然后在这个空间上对训练和测试语音计算其相应的总变化因子(i-vector),将其作为支持向量机(Support Vector Machine,SVM)建模和分类的特征。为了降低信道对识别的影响,本文使用线性判别分析(Linear Discriminant Analysis,LDA)降维技术以及类内协方差规整(Within Class Covariance Normalization,WCCN)技术对i-vector进行信道补偿。  针对总变化因子分析的不足,本文将邻域保持嵌入技术(NeighborhoodPreserving Embedding,NPE)引入到基于i-vector的说话人识别中。与总变化因子分析技术相比,基于邻域保持嵌入的因子分析技术一方面作为一种流形学习方法,可以通过构建邻接图获取数据的局部邻域结构信息;另一方面,该技术可以进行有监督训练,能够有效地利用训练数据中的说话人标注信息。因此,NPE能够有效地克服现有总变化因子分析技术存在的不足,可以进一步提高说话人识别性能。  3.研究了基于概率线性判别分析(Probability Linear Discriminant Analysis,PLDA)建模技术的因子分析系统,并在此基础上,研究并实现了韵律特征的提取和参数化建模。与传统声学层短时特征美尔频率倒谱系数(MelFrequency Cepstral Coefficient,MFCC)不同的是,韵律特征参数作为一种长时特征,在声学环境变化时能够保持一定的稳定性,不容易受信道及噪声的影响。由于特征参数上的互补性,基于高层特征参数与声学层参数的系统在融合后可以提升系统的整体识别性能。
其他文献
学位
合成孔径雷达(SAR)是一种主动式微波遥感系统,其结合脉冲压缩和合成孔径技术,实现了利用小孔径天线取得高分辨率的成像特性。因其具有全天候、全天时获取高分辨率雷达图像的工
高分辨率光学图像港口舰船检测与识别技术在民用和军事领域发挥着重要的作用。随着卫星成像技术的发展,遥感图像数据在时间、空间上的分辨率越来越高。传统的使用图像分割或舰
海洋信道通信带宽窄,时-空-频变复杂,而且多途扩展严重,在较高速率通信下,时延扩展能够覆盖几十甚至上百个码元符号,造成严重的码间干扰(intersymbol interference,ISI),为实现可靠
多导人工耳蜗已广泛应用于治疗重度及深度耳聋疾病,其通过电流直接刺激听神经使耳聋患者产生听觉。由于当前人工耳蜗装置提供的电刺激并不能够完全有效地模仿听觉外周生理功能
DSP作为通用的数字信号处理器,在通信、数值运算、图像处理等诸多领域有着广泛应用,其强大的数据运算能力特别适合运算密集的应用场合。现代社会对DSP的应用越来越广泛,对新DSP
X光位置测量对于要求高品质、高稳定性的同步辐射光源具有重要的作用,它是同步辐射装置向广大用户提供可稳定使用光束的必不可少的条件之一,其测量值还是实验用户需要及时了解
交通场景理解是成功实现自动驾驶和车辆导航等应用的关键技术之一。研究视觉系统在处理交通场景信息时的关注特性、视觉敏感度、感知及快速解读能力,对交通场景理解具有重大
信息中心网络作为一种革命性的网络体系结构,它将传统的面向主机的端到端通信模式转变为以内容为中心的通信模式。作为一个崭新的概念,信息中心网络带给网络的革命性改变引人关
最近几年,由于人群计数在智能监控和安防领域广泛的应用价值和社会意义,使得单张图像和监控视频中的人群计数问题在学术界和工业界受到了越来越多的关注。但是,在现实场景中,严重