论文部分内容阅读
文本无关电话语音的说话人身份确认的研究,以其实用性,成为当今语音识别领域中的热门课题。当今文本无关说话人确认的主流技术是以高斯混合模型(GMM)为代表的概率统计模型,由于GMM的性能依赖于训练和测试特征参数的数据分布,而在电话语音的说话人确认中,训练语音和测试语音所受到电话信道和环境的影响是不同的,由此导致的训练和测试失配会使系统性能明显下降。因此如何解决训练和测试语音的失配问题是提高说话人确认系统鲁棒性的关键。
电话信道引起的失真包括线性失真和非线性的失真,本文在特征域针分别对特征参数的线性和非线性失真提出补偿办法。
对于电话语音中存在的平稳加性噪声和信道引起的线性失真,实验研究了倒谱均值相减法(CMS)和相关谱滤波(RASTA)的补偿方法,在NIST99电话语音库上的实验表明,通过CMS和RASTA补偿后说话人确认系统的识别率提高了36%左右。
针对信道引起的非线性失真,提出了一种基于GMM语音模型特征映射的补偿方法(FM),通过对不同类型的语音采用不同的补偿来实现非线性补偿。采用GMM建立语音模型并基于“匹配补偿”思想进行的特征映射,即通过特征映射消除训练语音特征和测试语音特征中受信道影响的差异,因此各个信道的GMM语音模型都是从基准语音模型自适应获得的,并由此获得不同信道不同类语音特征的映射规则。
实验研究了语音模型的类数,GMM语音模型高斯加权(映射规则数)对说话人确认系统性能的影响。考虑到手机语音不仅有话筒类型的差异,还存在着编码方式的不同,实验研究了在话筒分类的基础上按编码方式进一步分类对系统性能的影响。