论文部分内容阅读
说话人识别技术属于生物认证技术的一种,是一项根据语音波形中反映出来的生理和行为特征的语音参数,自动识别说话人身份的技术。基于纯净说话人语音的说话人识别技术研究历史较长,方法较为成熟,但是在存在强烈干扰源的情况下,一般说话人识别系统的识别性能大大下降。
本文研究了基于梅尔倒谱系数和高斯混合模型的说话人识别系统,在此基础上,将信号处理领域的盲信号分离技术引入传统的说话人识别系统框架,作为对含噪说话人语音的一种预处理手段。实验表明无论是在实验室仿真实验中还是在真实环境录制语音中,上述方法都可以有效地提高说话人识别系统的性能。在基于文本无关的说话人识别中,当前的主流识别技术是基于高斯混合模型的算法,而采用模拟人耳听觉感知系统的梅尔倒谱系数作为参数特征可以有效地表征说话人语音的频率特性。文中采用这两种技术研究实现了一个基本说话人识别系统,并在实验室构建的文本无关语料库上进行实验,取得了较好的识别效果,在20人的模板库上识别正确率基本在80%以上,并且随着训练语音和测试语音长度的增加,识别率可以上升到93%左右。现实环境下,录制的说话人语音信号常常受到其他语音或者噪音的干扰,并且麦克风拾取的信号可以视作目标语音信号与干扰信号的卷积混合,因此,在说话人识别系统的前端增加对含干扰源语音的盲源分离环节是提高说话人识别系统性能的有效方法。文中对基于瞬时混合模型和基于卷积混合模型的含噪语音信号分别用固定点迭代算法和基于自然梯度的信息最大化算法进行盲源分离,并对频域的乱序分离信号用基于能量相关性和基于基本向量方向性的方法做了排序处理。大量实验证明,加入盲源分离环节的说话人识别系统可以有效地识别含有强干扰源的说话人语音信号,识别系统的准确率相较于传统的说话人识别系统有较大提高,基本可以接近纯净说话人语音的识别正确率。