论文部分内容阅读
说话人识别可以被看作是语音识别的一种,是当前的研究热点之一。说话人识别是包含在语音中的同说话人有关的信息来自动识别说话人,它的具体应用可以分为两大类,一类是说话人辨认,这类问题系统要完成的任务就是把说话人的信号特征与数据库中的众多人员的模板相比较,从而确定说话人的身份;另一类是说话人确认,这类问题要求说话人进行身份说明,系统的任务就是把输入信号与库中的相应身份的声音模板进行匹配以确定说话人身份的真伪。可见,辨认要做的匹配是一对多的,而确认所做的匹配则是一对一的,所以说话人辨认对系统的要求较高,尤其是数据库存储的模板数比较大的时候,这个问题尤为突出。因此,为了提高辨认识别率,本文提出了一种在基于MFCC说话人识别系统中对模型参数进行分类的思想。
本文在这方面主要做了以下工作:
(1)文章实现的说话人识别系统,采用能够反映人对语音的感知特性的Mel频率倒谱系数(MFCC)作为特征参数。实验比较了MFCC、△MFCC+MFCC分别与VQ、加权的VQ(WDMVQ)相结合的识别率。
(2)对基本的VQ识别算法进行了改进,研究了一种新的矢量量化识别方法,即基于方差的加权失真测度的矢量量化。
(3)在训练阶段,利用标准语音库里的音频信号将说话人参考模型进行分类,采用不同码字进行识别,通过实验验证分类说话人识别的优越性。