论文部分内容阅读
说话人确认技术是一种生物识别技术,目前越来越受到人们的关注。如今随着多媒体时代的来临,说话人确认技术逐渐从实验室转移到实际应用中。但是语音数据的不足、背景噪声和传输信道不匹配等因素对说话人确认系统的实用化造成影响。本文针对此问题进行了研究,主要的研究内容归纳如下:
首先,论文根据HTK软件支持多种类型的特征参数和训练高斯混合模型等特点,构建了基于高斯混合模型-通用背景模型(GMM-UBM)说话人确认系统。但是传统的GMM-UBM系统容易受噪音和信道影响,而基于高斯混合模型超向量的SVM说话人确认系统不仅能降低噪声和信道作用对识别效果的影响,还优化了说话人确认系统的评分方法,从而提升了系统的识别性能。
其次,针对训练语音数据和测试语音数据的信道不匹配的问题,论文采用NAP算法消除输入特征中信道因子,从而减少因信道不匹配造成的影响,突出说话人的特征因素,扩大不同说话人特征之间的距离。
最后为了解决因语音信号数据的不足对系统造成的影响,论文在基于GMM超向量的SVM说话人确认系统的基础上,提出了三种不同的语音分段方法,它们能在不增加用户负担的情况下增加语音数据。三种方法分别为基于时间间隔的语音分段(Utterance Partitionbased on Interval,UP-I),平均语音分段(Equally Utterance Partition,UP-E)和基于声音向量重采样的语音分段(Utterance Partition with Acoustic Vector Re-sampling,UP-AVR)。通过在美国国家标准与技术研究所(NIST)2002年说话人识别数据库上的实验证明,三种不同的语音分段方法不仅有效地解决了因缺少语音数据而造成SVM中不同类别之间样本点数不平衡的问题,还提高了系统的识别率。