跨信道说话人识别技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：wuaiboer

【摘要】

：

说话人识别（即声纹识别）技术，就是根据说话声音对说话人进行身份认证。在国家信息安全方面说话人识别技术一直有着重要的作用，随着通信以及互联网技术的发展，说话人识别技术在线上

【作者】

：

黄厚军

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2016年期

【关键词】

：

说话人识别身份认证信息处理跨域差异补偿语音增强

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

说话人识别（即声纹识别）技术，就是根据说话声音对说话人进行身份认证。在国家信息安全方面说话人识别技术一直有着重要的作用，随着通信以及互联网技术的发展，说话人识别技术在线上支付和多媒体信息处理方面也开始得到应用。　　在NIST说话人识别评测中，测试集语音均是在可控的条件下收集的，可以保证语音有较高的信噪比和较长的持续时长。而且，由于NIST说话人识别评测已经举办多届，这期间积累了大量有监督的与测试数据信道匹配的系统开发数据。因此，当前说话人识别技术在NIST说话人识别评测中能取得较好的识别效果。　　然而，当前处理在实际不受控制的环境中获取的语音信号的需求正在增加。不受控制的语音收集环境不仅给语音增加了更多的变化性因素，如噪声、混响、语音持续时间和说话人的情绪状态等，而且也使得我们很难提前准备与测试语音信道匹配的系统开发数据，这些都给说话人识别系统带来了新的挑战。　　在实际应用中，如何提高说话人识别系统在含噪语音、短时语音以及系统开发数据与测试数据信道不匹配条件下的性能，是当前说话人识别领域的研究热点也是本文的研究重点。主要研究工作及创新点包括:　　1.研究噪声环境下说话人识别，并提出特征修复技术。噪声混入到语音信号中，会“污染”语音信号的频谱图，这样会“损坏”基于短时谱的声学特征，从而影响基于这些声学特征的说话人识别系统的识别性能。之前对于这个问题的解决办法主要有:采用语音增强等技术对加噪语音进行去噪，提取对噪声更鲁棒的声学特征，采用与噪声语音加噪特性相似的数据来进行系统开发。本文提出了特征修复技术，对被噪声“损坏”的声学特征进行修复，使其恢复到未被噪声“损坏”时的样子，从而消除噪声的影响。　　2.研究跨信道说话人识别，并提出跨域差异补偿技术。在实际应用中，当系统开发集数据与测试集信道不匹配时，说话人识别系统性能会急剧下降。当拥有一批与测试集信道匹配的自适应数据可利用时，目前有很多已经发表的技术来解决这个问题，归纳起来主要包括模型自适应类方法和信道补偿类方法。本文中提出了一种信道差异补偿方法:跨域差异补偿技术。该方法不是尝试消除语音表征向量中的信道信息，而是补偿测试集与开发集之间信道特性的差异，消除它们之间的信道不匹配性。另外，本文也研究了在没有信道自适应数据，但系统开发集数据来自多种信道时的跨信道说话人识别技术，本文提出的跨域差异补偿技术稍作扩展就可以在这种情况下提高系统的鲁棒性。　　3.研究短时语音说话人识别，并提出特征层总变化因子分析技术。总变化因子是当前主流的语音表征向量，在NIST说话人识别评测中取得了较好性能，但是当测试语音持续时长很短时，基于总变化因子的说话人识别系统性能会急剧下降。一些研究者认为这是由于总变化因子中包含的与时长相关的分量导致的，所以他们提出了一些对总变化因子的时长变化性进行补偿的技术。另外有一些研究者认为，短时语音的总变化因子相对长时语音的总变化因子估计值的不确定性更大，基于这样的假设他们提出了利用总变化因子不确定性的概率线性判别式分析模型。在本文中，认为传统的总变化因子模型是对语音特征的高斯统计量来进行因子分析，提取总变化因子时需要将语音的特征向量在一个高斯混合模型上提取高斯统计量，这个过程中会损失一部分特征中的说话人信息。当然这样的损失是很小的，对于长时语音完全可以忽略，但是短时语音中的说话人信息量本就不足，这样的损失就会带来严重的影响。基于这样的假设，本文提出了特征层总变化因子分析技术，直接从特征中提取与说话人和信道相关的总变化因子。

其他文献

差分混沌比特交织编码调制系统在电力线信道中的研究

当信号在电力线通信(PLC:Power Line Communication)信道上传输时,会受到多种干扰的影响,包括由多径传播引起的符号间干扰(ISI:Intersymbol Interference),电缆损耗引起的信号衰减以及各类型的脉冲噪声等。差分混沌调制技术因其具有的内在扩频性,强大的抗多径干扰能力以及无需载波同步等优势而受到了人们的关注,有望在未来成为PLC信道下的传输方案。针对PLC

学位

基于自适应窗口选择的极化SAR数据空域滤波方法研究

极化合成孔径雷达(PolarimetricSyntheticApertureRadar，PolSAR)技术可以同时记录地物多种极化状态的散射振幅和相位，对地物散射特性的定量研究具有显著优势。然而相干斑噪声严

学位

极化合成孔径雷达相干斑滤波滤波窗口干涉相干系数

多普勒计程仪测流技术研究

多普勒计程仪利用信号处理算法，估计回波的多普勒频率偏移，再根据多普勒原理，推导出载体相对于某一参照物的三维速度，是一种重要的水中导航设备。对底测速在多普勒计程仪中最为常

学位

复相关技术宽带编码汇编优化多普勒计程仪对底测速信号处理算法测流算法

基于点特征的SAR图像自动配准算法研究

合成孔径雷达(SyntheticApertureRadar，SAR)图像配准是SAR图像处理技术的重要环节，在军事侦察、自动导航、地形测绘、洪涝监测等军事和民用领域起着决定性作用。实际应用需要融

学位

合成孔径雷达图像配准点特征相似三角形

高考综合考试与高中历史教学探究

摘要：在我国当前的高考模式下，文科综合考试成绩在高考总分中所占的比重比较大，而历史科是综合考试的三大组成部分之一，如何预测高中文科综合考试命题的方向一直是高中文科教师关注的重点。为此，在对我国历年来文综考试试卷分析的基础上，特别是对历史高考试题的分析，为以后的历史教学指明了方向。　　关键词：高考综合考试；文科；历史教学　　随着我国新课程改革制度的落实和应用，我国在2000年开始在全国部分省份实行3

期刊

高考综合考试文科历史教学

面阵遥感成像系统辐射不一致校正方法研究

现代遥感系统中广泛使用的面阵电荷耦合元件(CCD)等极多元成像器件提供了同时获取大范围内科学数据空间分布的能力，但也带来了响应不一致的问题。由于面阵CCD的制造工艺所限，不

学位

面阵遥感成像系统相对辐射定标均匀参照图像质量制造工艺

鸡CD3和IL-2分子单克隆抗体的研制与鉴定

鸡CD3分子是T细胞表面的重要标志之一,在抗原识别过程中,CD3分子参与信号传导。针对鸡CD3分子的特异性单克隆抗体(McAb)可用于测定或分选鸡体内CD3~+ T细胞群,从而了解鸡体的

学位

鸡CD3鸡IL-2真核表达原核表达单克隆抗体

差分混沌移位键控通信系统优化设计与分析

在过去的几十年中,混沌信号在很多领域得到了充分的研究发展。在通信领域,研究人员将其作为载波搭建数字混沌通信系统。为了解决实际信道同步难的问题,实际应用的基于混沌的通信系统一般都在接收端采用非相干解调。该类方案虽然成功解决了系统同步的问题,但引入混沌参考序列大幅度降低了系统的能量效率以及带宽效率。因此,提高差分混沌移位键控系统的能量效率以及带宽效率将成功推动基于差分混沌移位键控的系统走向实际应用。为

学位

电工电子实验教学示范中心的建设与实践

摘要：近些年国家不断提高对职业教育的重视程度，现代化建设过程中也需要大量基层技术人员。电工电子实验教学示范中心作为职业教育的重要组成部分，需要结合实际做好建设工作，充分发挥示范中心的作用，推动中职教育快速、健康发展。有鉴于此，本文中以中职院校为切入点，分析建设电工电子实验教学示范中心的措施，为一线教育工作者提供经验借鉴。　　关键词：中职院校；教学示范中心；建设措施　　近些年，我国中职院校在培养在校

期刊

中职院校教学示范中心建设措施

唐古特白刺果实多糖的提取及其药理活性研究

本研究选用青藏高原柴达木盆地的唐古特白刺(Nitraria tangutorum Bobr)为研究对象,试验测定了唐古特白刺果实的元素含量,并通过微波辅助超声波提取法提取唐古特白刺果实中的多糖。进行了料液比、提取温度、提取时间和提取次数的单因素实验和正交试验,探讨了唐古特白刺果实多糖提取的最佳工艺,并对唐古特白刺果实多糖的部分药理活性进行了研究。研究主要内容和结果如下:1、本研究采用原子吸收分光光

学位

唐古特白刺多糖提取药理作用

跨信道说话人识别技术研究

其他学术论文