说话人确认中的信道补偿技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：lhongbo

【摘要】

：

说话人识别，也称声纹识别，是通过分析说话人的语音，从而对说话人的身份进行鉴定与认证的一门技术。根据应用的不同，说话人识别分为说话人辨识和说话人确认。说话人识别在维护国家

【作者】

：

许云飞

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2015年期

【关键词】

：

说话人识别信道补偿技术训练语音测试语音标注数据

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

说话人识别，也称声纹识别，是通过分析说话人的语音，从而对说话人的身份进行鉴定与认证的一门技术。根据应用的不同，说话人识别分为说话人辨识和说话人确认。说话人识别在维护国家安全方面起到了至关重要的作用。近年来，随着互联网技术和多媒体技术的发展，说话人识别在民用领域也得到越来越广泛的应用。　　在实际应用中，为了更好地推广说话人识别，需要解决如下三个主要问题:1）由于声学环境复杂多变，训练语音和测试语音之间的差异，会大大地降低系统性能。因此，必须研究出有效的补偿算法;2）开发说话人识别系统时，常常需要大量的标注数据。然而，数据标注是一项费时费力的工作，往往受到客观条件的制约而难以开展;3）为了得到良好的性能，通常要求训练语音和测试语音都要长达一分钟以上。如果训练语音或测试语音只有几秒钟，那么系统性能将会急剧下降。　　本文致力于研究第一个问题，即减弱或消除传输信道对说话人识别的负面影响，将从特征域、模型域和得分域三个方面分别开展工作。首先，深入研究说话人识别中的特征提取算法、建模算法和得分规整算法;其次，分析这些关键算法的原理，并找出存在的问题;最后，提出相应的改进算法，尽可能地提高说话人识别的鲁棒性。本文的主要研究工作及创新点包括:　　1.研究并实现了美尔频率倒谱系数特征以及基于该特征的信道补偿技术，如倒谱均值减、倒谱均值方差规整、相对谱滤波、特征平滑等。研究了特征提取过程中，各信道补偿技术、高阶倒谱差分和语音端点检测的组合顺序对系统性能的影响。通过引入维纳滤波技术，从语音中估计并移除信道成分，提升了麦克风信道下的系统性能。　　2.研究并实现了总变化因子技术及基于总变化因子的信道补偿技术。该技术不区分语音中的说话人信息与信道信息，而是将它们看成一个整体进行建模。然后，在这个总变化空间中，估计用于表征每句语音的总变化因子，并将其作为概率线性鉴别分析建模和识别的特征。为了降低信道对系统性能的影响，使用线性判别分析技术、类内协方差规整技术和局部保留映射技术对总变化因子进行信道补偿。然而，这些技术都存在明显缺陷。因此，引入半监督局部线性鉴别分析技术，同时利用已标注数据和未标注数据，并保留总变化空间中的局部结构。该技术稳定地提升了系统性能。　　3.研究使用因子分析技术及神经网络对信道进行补偿。传统的估计方法预先计算好模型均值，迭代过程中不再更新，导致模型均值不能很好地与更新后的模型空间耦合。提出联合估计法，通过将模型均值和模型空间拼接，并同时估计，系统性能得到稳定提升。提出泛化的贝叶斯模型，同时对说话人类内变化与类间变化建模，当训练数据充足时，系统性能得到稳定提升。概率线性鉴别分析和双协方差模型等概率生成式模型均为泛化的贝叶斯模型的特例。提出贝叶斯打分法，可用于说话人有多句注册语音的情形，且计算效率较高。提出一种新的神经网络结构，将特征矢量和总变化因子相结合，用做神经网络的输入;既解决了特征矢量鉴别性不足的问题，又解决了总变化因子数据量不够的问题。当说话人的注册语音数目较多时，其表现优于概率线性鉴别分析。此外，神经网络和概率线性鉴别分析具有融合效果。　　4.在概率线性鉴别分析中，传统的得分规整技术无法起到正面作用。当说话人有多句注册语音，且信道类型不止一种时，研究并比较了多种得分处理策略以及一种得分规整方法对系统性能的影响。此外，受信道影响，各说话人的得分阈值不一致，给实际应用带来了很大的困扰。研究将支持向量机用于说话人识别，把所有的注册语音一分为二，前一部分用于注册说话人模型，后一部分与说话人模型的得分作为正样本，以此为参照，将阈值校准到一个统一的范围。

其他文献

改进的FoldIndex算法预测无序蛋白质的研究

随着计算机技术和生物科学技术的共同飞速发展，将计算机技术运用到生物领域中是当今生物学的重要转变。其中，无序蛋白质的研究引起了研究者们的兴趣。传统的蛋白质与无序蛋白质

学位

无序蛋白质FoldIndex算法窗函数结构预测

基于宽带无线接入系统的若干关键技术研究

当前，随着通信技术的飞速发展以及新业务的层出不穷，通信领域出现了很多新的特点，网络IP化正成为一种不可逆转的发展趋势，以IP应用为代表的宽带多媒体数据业务正在成为网络业务发

学位

宽带无线

蛇床子素的结构修饰与钙拮抗活性研究

本论文以从中药蛇床子（Cnidium monnier（L．）Cusson）中分离获取的蛇床子素为先导化合物，应用有机化学、药物化学理论，利用有机合成、现代分析分离技术等手段，进行结构修饰改造，结合生物

学位

蛇床子素钙拮抗结构修饰衍生物

数字图书馆环境中联合认证子系统的设计与实现

随着数字出版和网络技术的发展，数字图书馆(Digital Library，DL)拥有的数字资源也变得越来越丰富。在分布式数字图书馆环境中，需要建立完善的联合认证协议和认证机制，以便能够形

学位

数字图书馆SAML联合认证协议权限委托模型单点登陆框架

戊二醛聚合猪血红蛋白制备血红蛋白氧载体的初步研究

输血是临床治疗各种疾病的重要手段之一。但近二十年来,由于血源性传染疾病的威胁,给临床输血带来极大的困难。因此,寻找一种临床应用安全的、资源丰富的血液代用品,就成为各国医药学界研究、开发的目标,其中血红蛋白氧类载体(Hemoglobin-based oxygen Garrlers,HBOCs)最受关注。本文以资源丰富的猪血为原料,利用多种纯化步骤获取超高纯度猪血红蛋白,以戊二醛为交联剂聚合猪

学位

戊二醛猪血红蛋白血红蛋白氧载体

基于ARM及uClinux手持终端底层平台的研究

手持智能终端是一种个人数字助理设备,广泛应用于现代的电子、通信和控制等领域。国内市场手持智能终端的种类繁多,标准不一,在有效防止盗版的同时,也带来了使用的不便。本文

学位

ARMS3C44B0XBLOBuClinux嵌入式

朗读教学在初中语文教学中的开展

摘要：古人云：“读书百遍，其义自见。”可见，读是解开文章语意大门的一把钥匙。新课标提出：“应该让学生更多地直接接触语文材料，在大量的语文实践中体会、掌握运用语文的规律，而不宜刻意追求语文知识的系统和完整。”所以，我们应该还原语文学习的本质，让学生多读，在与文本、与作者对话过程中“有所感悟和思考，受到情感熏陶，获得思想启迪，享受审美乐趣。”　　关键词：初中语文；朗读；目标　　一、提升语文朗读教学的重

期刊

初中语文朗读目标

Ka波段星载SAR DBF技术研究

由于Ka波段短波长的特点，使Ka波段星载合成孔径雷达(SAR)设计出来的天线拥有体积小重量轻等诸多优点，此外Ka波段具有很高的频率，使其能具有很高的绝对带宽，这就使得Ka波段能够达

学位

星载合成孔径雷达数字波束合成技术Ka波段信号处理空间分辨率图像质量

嵌入式射频识别（RFID）系统中间件的设计与实现

最近几年来，随着物流技术的高速发展和对物流自动化的要求，RFID(RadioFrequency Identification,射频识别)技术发展十分迅速。将RFID(Radio FrequencyIdentification)标签应用

学位

嵌入式射频识别嵌入式射频识别电子产品代码电子产品代码中间件中间件软件工程软件工程

基于ADuC831的循环水浴温度控制器的设计

本文是关于德国HAAKE循环水浴温度控制器的研制。HAAKE循环水浴配备电压输出接口，温度控制器可以直接对循环水浴输入电压来控制水浴的加热和制冷。本温度控制器采用系统级芯片

学位

循环水浴温度控制器系统级芯片差值校准

说话人确认中的信道补偿技术研究

其他学术论文