论文部分内容阅读
说话人识别,也称声纹识别,是通过分析说话人的语音,从而对说话人的身份进行鉴定与认证的一门技术。根据应用的不同,说话人识别分为说话人辨识和说话人确认。说话人识别在维护国家安全方面起到了至关重要的作用。近年来,随着互联网技术和多媒体技术的发展,说话人识别在民用领域也得到越来越广泛的应用。 在实际应用中,为了更好地推广说话人识别,需要解决如下三个主要问题:1)由于声学环境复杂多变,训练语音和测试语音之间的差异,会大大地降低系统性能。因此,必须研究出有效的补偿算法;2)开发说话人识别系统时,常常需要大量的标注数据。然而,数据标注是一项费时费力的工作,往往受到客观条件的制约而难以开展;3)为了得到良好的性能,通常要求训练语音和测试语音都要长达一分钟以上。如果训练语音或测试语音只有几秒钟,那么系统性能将会急剧下降。 本文致力于研究第一个问题,即减弱或消除传输信道对说话人识别的负面影响,将从特征域、模型域和得分域三个方面分别开展工作。首先,深入研究说话人识别中的特征提取算法、建模算法和得分规整算法;其次,分析这些关键算法的原理,并找出存在的问题;最后,提出相应的改进算法,尽可能地提高说话人识别的鲁棒性。本文的主要研究工作及创新点包括: 1.研究并实现了美尔频率倒谱系数特征以及基于该特征的信道补偿技术,如倒谱均值减、倒谱均值方差规整、相对谱滤波、特征平滑等。研究了特征提取过程中,各信道补偿技术、高阶倒谱差分和语音端点检测的组合顺序对系统性能的影响。通过引入维纳滤波技术,从语音中估计并移除信道成分,提升了麦克风信道下的系统性能。 2.研究并实现了总变化因子技术及基于总变化因子的信道补偿技术。该技术不区分语音中的说话人信息与信道信息,而是将它们看成一个整体进行建模。然后,在这个总变化空间中,估计用于表征每句语音的总变化因子,并将其作为概率线性鉴别分析建模和识别的特征。为了降低信道对系统性能的影响,使用线性判别分析技术、类内协方差规整技术和局部保留映射技术对总变化因子进行信道补偿。然而,这些技术都存在明显缺陷。因此,引入半监督局部线性鉴别分析技术,同时利用已标注数据和未标注数据,并保留总变化空间中的局部结构。该技术稳定地提升了系统性能。 3.研究使用因子分析技术及神经网络对信道进行补偿。传统的估计方法预先计算好模型均值,迭代过程中不再更新,导致模型均值不能很好地与更新后的模型空间耦合。提出联合估计法,通过将模型均值和模型空间拼接,并同时估计,系统性能得到稳定提升。提出泛化的贝叶斯模型,同时对说话人类内变化与类间变化建模,当训练数据充足时,系统性能得到稳定提升。概率线性鉴别分析和双协方差模型等概率生成式模型均为泛化的贝叶斯模型的特例。提出贝叶斯打分法,可用于说话人有多句注册语音的情形,且计算效率较高。提出一种新的神经网络结构,将特征矢量和总变化因子相结合,用做神经网络的输入;既解决了特征矢量鉴别性不足的问题,又解决了总变化因子数据量不够的问题。当说话人的注册语音数目较多时,其表现优于概率线性鉴别分析。此外,神经网络和概率线性鉴别分析具有融合效果。 4.在概率线性鉴别分析中,传统的得分规整技术无法起到正面作用。当说话人有多句注册语音,且信道类型不止一种时,研究并比较了多种得分处理策略以及一种得分规整方法对系统性能的影响。此外,受信道影响,各说话人的得分阈值不一致,给实际应用带来了很大的困扰。研究将支持向量机用于说话人识别,把所有的注册语音一分为二,前一部分用于注册说话人模型,后一部分与说话人模型的得分作为正样本,以此为参照,将阈值校准到一个统一的范围。