改进EM算法的高斯混合模型在说话人识别中的应用

来源 :2008年全国声学学术会议 | 被引量 : 0次 | 上传用户:luoboge
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在与文本无关的说话人识别方式下,高斯混合模型(GMM)是目前应用最为广泛和最为有效的识别方法,而对于高斯混合模型进行极大似然估计的一个很好的工具就是期望最大化(Expectation Maximization,EM)算法。然而,EM算法有个显著的缺陷,就是收敛速度比较慢,有时会收敛于局部最小值,而不能得到全局最优解,使得聚类效果受到影响。本文提出一种改进EM算法的GMM。EM算法是一种通用的方法,它能够最大似然的估计非完整数据结构集的概率分布模型的参数。本文结合高斯混合分布的重叠度改进了EM算法的GMM,并在说话人识别中进行了验证,实验证明,改进EM算法的GMM对提高识别率具有一定的作用。
其他文献
高速水声通信与远距离声纳目标检测需要在低信噪比条件下克服海洋声信道中存在的严重多途效应。由于海洋声信道的混响时间较长,造成信道响应具有稀疏性(Sparse)特点。在实时传输场合,滤波器需要更新的抽头数目十分庞大,这势必增加算法的计算复杂度。论文首先采用一种具有相位补偿能力的改进的常数模盲均衡算法(MCMA)完成冷判决反馈均衡的冷启动,之后进入判决引导过程,针对稀疏水声信道特点,仅对信号能量有意义的
基于时延估计的三元阵(包括三元子阵)被动定位技术是对目标进行被动定位的典型方法,它要求三阵元位置(或三子阵中心位置)必须成直线,否则会对测距结果造成很大误差,这对实际安装和布放提出了很高要求,从而限制了它在更多方面的应用。本文以简单三元阵为例,在对称直线阵被动定位原理基础上推导了不等间距非直线三元阵精确定位公式,将非直线阵形误差角用于修正测距、测向公式中,并进行了海上实验,在近距离有效范围取得较为
光纤水听器和矢量水听器是近些年来出现的新型水听器,与普通声压水听器相比,它们有着较为优越的性能,光纤矢量水听器结合了二者的优势,有着更为广阔的应用前景。矢量水听器测量声场声压和振速等物理量的组合具有一定的空间指向性,从而可以用单矢量水听器进行方位估计。本文将一路声压信号和3个互相垂直的轴上振速信号看成是一个四元基阵的四个基元的输出信号。即是将一个单光纤矢量水听器看成是一个四基元的阵列,然后利用阵列
对同一目标噪声信号,可以有多种特征提取方法,不同的方法提取的特征矢量对目标的判别结果可能不同,特征融合的目标识别就是把这些不同的特征矢量融合起来,使对目标的判别的可信度增加。决策级融合是对每个信息源获得的属性信息分别进行特征提取和属性判决,然后将多属性判决进行融合,以获得目标的最终属性判决。
随着潜艇隐身技术的发展以及新的小型威胁目标的出现,例如水下爆破小组和武器化AUV等,在水下警戒中多置和多频带探测系统得到了重视。通常,多置系统意味着更高的检测性能、更好的定位精度和自身防护性能,因此较单置系统有更好的系统水下对抗潜力。本文讨论双置条件下运动目标的检测方法,双置系统模型由一个运动的声源和一个双置拖线阵系统组成。主动发射脉冲为单频一长脉冲,利用运动目标的多普勒偏移与静态混响进行区分。根
早期用于语音信号处理的耳蜗模型以线性模型为主,例如:Lyon和Seneff等人为代表建立的线性时不变恒Q值被动滤波器组模型等。这些模型较为简单,易于实现,被一些语音识别系统采用作为前端处理。本文考虑了舰船辐射噪声信一号的特点,对耳蜗模型进行适应性处理,模拟了耳蜗的主要生理特性,与实验数据吻合很好。
头相关传输函数(HRTF)是自由场情况下声源到双耳的传输函数。由于HRTF包含了声源定位的主要信息,将单通路信号和HRTF进行频率域相乘或时间域卷积就可以虚拟出特定空间方位的声像,所以HRTF是虚拟听觉技术的核心。现有的虚拟听觉重放系统往往采用HRTF的最小相位近似。在生成双耳虚拟声信号的过程中,为了确保最小相位近似下双耳时间差(ITD)的准确性,需要考虑双耳的最小相位HRTF函数之间的相对时间延
头相关传输函数(HRTF)是自由场情况下声源到双耳的传输函数,它与生理结构密切相关,因而具有个性化特征。在虚拟听觉的应用中,为了简化信号处理,经常假定HRTF是左右对称的。但由于人的生理结构并不一定严格是左右对称的,这可能会导致HRTF出现了左右的不对称性。本研究对52名中国人受试者HRTF的左右对称性进行分析,结果表明,在f≤1.5 kHz时,HRTF是近似左右对称的;但随着频率的升高,特别是f
虚拟听觉利用头相关传输函数(HRTF)进行信号处理,模拟出空间声源到达双耳处的声音信号,从而在听觉上虚拟出相应的空间声像。对于虚拟声的两扬声器重放,许多研究都是假定两个扬声器的传输特性是完全一致的。 但最近的研究表明,两扬声器的传输特性不匹配是导致虚拟听觉重放时侧向声像位置畸变的重要原因之一。因此,在实际应用中要特别注意两扬声器的特性匹配,而对于大批量的生产和应用,要做到左、右扬声器的特性完全匹配
语音识别系统的应用日益广泛,然而鲁棒性问题却一直是实际应用中令人困扰的主要问题之一。现实环境的多样性,训练测试阶段工作条件和声学环境的不匹配,致使系统的性能急剧下降。解决语音识别系统的鲁棒性问题,一般从模型补偿、前端降噪、鲁棒特征三个方面着手。本文介绍了两种基于MVDR(最小方差无失真响应)的鲁棒语音识别特征参数MVDR-MFCC、PMCC,以期待达到较好的抗噪性能。