论文部分内容阅读
随着通信与信息事业的发展,越来越多的用户通过电话、手机、计算机网络等媒介进行语音交流,面向这类语音的说话人识别系统,具有使用方便、不易仿造、设备简单、远程接入等优点,在金融、商贸、公安、军事等诸多领域有广阔的应用前景,因此研究基于远程语音的说话人识别具有重要意义.在现代通信系统中,多采用分析合成类的编码器对语音进行编码.针对这类编码语音,该文围绕话者特征提取和说话人建模两大关键问题,深入分析了基于概率统计模型GMM-UBM的与文本无关的说话人确认系统,着重研究了从编码码流中直接提取特征的话者确认,同时对使用宽带和窄带解码语音进行话者确认中的若干重要问题进行了一定的探讨.该文的主要研究内容和成果如下:根据分析合成编码的特点,提出了一种直接从编码码流中提取话者特征的半解码方法.半解码方法从通信信道中截取数据帧并还原出声码器参数,进而将线谱频率转换为线性预测倒谱系数及其差分参数作为主要的说话人特征,用自适应码本衍生出的基音参数作为辅助的说话人特征,以直接矢量拼接的形式构造特征矢量.我们基于宽带编码3GPP的AMR-WB和窄带编码ITU-T的G.729实现了使用GMM-UBM框架结构的半解码话者确认系统.实验表明,半解码系统在运行速度提高一个数量级的情况下,达到了与解码语音再提取参数的系统相近的性能,且对于自适应编码的码率切换特点具有良好的鲁棒性.对于使用解码语音的话者确认,宽带和窄带的编码器将带来不同的性能.我们对两类编码器分别建立了基于解码语音和GMM-UBM的说话人确认系统,并深入研究了不同码率模式、不同语音频带下的话者确认性能,以及AMR-WB的码率自由切换特性对话者确认的影响.针对不同特征分量对说话人识别贡献的差异,提出了一种特征分量加权的GMM改进模型(FCW-GMM),并在GMM-UBM框架下,基于广义梯度下降理论,给出了对各高斯分量权重矢量组的有区分性的训练算法.实验表明,特征分量加权GMM-UBM的性能优于传统的GMM-UBM,且所得模型参数具有良好的推广能力.该文的研究工作得到了国家自然科学基金项目(60272039)和安徽省自然科学基金项目(01042205)的资助.