说话人识别中的因子分析关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:gaozhanlong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
真实环境中的自动说话人识别是一项非常有挑战性的任务。系统的性能会受到信道分布、背景噪声和回响干扰等影响。为了尝试解决这些问题,本文对说话人识别领域使用的一些因子分析关键技术进行了研究,目的是在大量数据训练的基础上提高说话人识别系统在这些不利影响下的鲁棒性。  高斯混合模型.通用背景模型系统中,说话人的声学特征可以被投影到高维空间上,成为高斯超向量。在联合因子分析的思路下提出的总变化因子分析技术,可以将高斯超向量进行压缩投影,使其变成一种能够表征说话人身份的低维因子:总变化因子。总变化因子含有丰富的说话人信息,可以用来描述一个说话人的特征。近年自动说话人识别的一个主要方向便是寻找对总变化因子的建模方法。  在不断尝试对总变化因子进行建模的过程中,高斯概率线性判别分析首先取得了巨大的成功。然而总变化因子并不符合高斯分布。从统计建模的角度来讲,需要对高斯概率线性判别分析的模型假设进行修正。后提出的重尾概率线性判别分析模型将高斯概率线性判别分析模型中的各因子假设修正为符合t分布。由于t分布是重尾分布,在统计建模角度来讲更适合描述总变化因子。  在重尾概率线性判别分析的启发下,将高斯概率线性判别分析模型中的隐藏因子假设修正为Laplace分布,我们提出了稀疏概率线性判别分析模型。由于Laplace分布也是重尾分布,所以稀疏概率线性判别分析拥有重尾概率线性判别分析的优点,比高斯概率线性判别分析模型更为鲁棒。根据稀疏表示理论,模型假设中并不直接使用Laplace分布,而是一个跟它足够相近的变化参数的重尾分布,这个重尾分布的上确界是Laplace分布。从系统在SRE2010上的性能来看,稀疏概率线性判别分析在几种信道测试情况下性能都很好,表现稳定,相对于高斯概率线性判别分析性能提升明显。  结合高斯混合模型的思想,我们将多个单高斯概率线性判别分析通过模型假设结合起来,提出了混合高斯概率线性判别分析。同时由于混合概率线性判别分析的训练数据量相比于混合高斯模型要少得多,基于训练数据量不同的考虑,混合高斯概率线性判别分析模型的假设需要进行一定的鲁棒性考虑,这里的模型假设中将所有混合高斯的方差以及本征音隐藏因子进行共享,在估计时一并计算,从而达到使模型更加鲁棒的效果。从系统在SRE2010上的性能来看,混合高斯概率线性判别分析在几种信道测试情况下性能表现稳定,相对于高斯概率线性判别分析在麦克风电话录音测试集上有明显提高。  最后,我们对多源说话人识别任务进行了一定的探索。首先对概率线性判别分析模型的打分进行了算法上的优化,降低了打分算法的运算复杂度。其次,我们发现混合高斯概率线性判别分析中的隐藏因子拥有很好的鉴别性以及建模性,从而提出了混合高斯概率线性判别分析模型-余弦距离打分算法和混合高斯概率线性判别分析模型-概率线性判别分析算法。最后我们一共给出五种系统策略,并通过实验对比它们在SRE2012五个测试集上的表现。通过对比发现,所有系统中,混合高斯概率线性判别分析模型,概率线性判别分析算法在五个测试集上表现鲁棒,相对于基线系统性能提升明显。
其他文献
目的:(1)聚类分析干细胞临床应用高质量证据的结构特征,为评价干细胞治疗的方法特征、疗效及安全性,为高质量证据临床转化提供直接依据;(2)系统分析干细胞治疗心肌缺血性疾病及血液肿
目的:研究单核细胞趋化蛋白1(Monocyte chemoattractant protein-1,MCP-1)诱导血管平滑肌细胞增殖的机制;  方法:1.MCP-1作用VSMCs24 h后,用NADPH氧化酶活性测定试剂盒检测细胞内
地表温度(Land Surface Temperature,LST)是地表能量平衡中的一个重要参数,在地-气相互作用过程中扮演着十分重要的作用,在气象、地质、水文、生态等众多领域有着广泛的应用。高
miRNA是一类由19~26个核苷酸组成的内源性非编码小RNA,通过其“种子序列”识别并结合靶mRNA的3’端非翻译区(Untranslated region,UTR)从而调控基因的表达。研究发现,miR-205-5p与
给定一段语音,自动给出语音语种信息的语种识别技术,在多语种语音服务,信息安全等许多领域都有着非常广泛的应用。语音环境的复杂多变是语种识别技术从实验环境应用到实际环境中
研究背景乳源性的?-酪蛋白(β-CN)含有丰富的生物活性肽,这些生物活性肽在体内发挥着各式各样的生理功能,因此,?-酪蛋白被誉为乳蛋白中的战略活性蛋白。制备和提取?-酪蛋白为
【目的】 克隆人肥大细胞类糜蛋白酶(chymase)编码区基因(CMA),并在大肠杆菌中进行原核表达,制备重组类糜蛋白酶,以之为免疫原免疫家兔制备其多克隆抗体,为进一步研究类糜蛋白
学位
面向开源文本的事件内容挖掘是将不具有固定结构或格式的文本中的事件内容信息转换成具有一定组织形式的事件数据,并对事件的领域进行识别的智能信息处理,是进行事件信息高级应
目前,我国已进入全面实现电信网、有线电视网和互联网三网融合发展的新阶段。融合网络下,网络承载的业务种类越来越多,融合业务正在迅速普及,各种业务的用户访问量越来越大,业务的