论文部分内容阅读
针对说话人确认中话者建模问题,提出GMM—DNN的混合建模方法。该方法先通过GMM提取原始语音特征的统计特征,然后进一步通过DNN非线性映射的方式将统计特征变换到一个与说话人相关的线性可分空间。选用栈式自编码神经网络SAE(Stacked Auto-encoder Neutral Network)作为深度神经网络的基本模型。在注册阶段从已训练的DNN网络中抽取最后一层作为说话人模型,称为p-vector。测试阶段,通过抽取测试语音的p-vector与注册说话人p-vector进行匹配,从而作出判决;另外还