论文部分内容阅读
文本无关的说话人确认被认为是最自然的生物特征认证手段之一,是语音识别研究领域的一个重要研究方向。传统的基于短时倒谱参数和GMM-UBM-MAP模型结构的说话人确认系统经过多年的发展及完善,识别率已经达到一定程度,难以再提高。探索短时倒谱以外的新的话者特征参数,已经成为当今话者识别研究的一个热点。本文针对实用手机、电话语音的与文本无关说话人确认,对基音以及超音段信息用于辅助提高话者确认系统的识别率及鲁棒性进行了深入研究。
主要研究内容如下:1.给出了两种短时基音参数的提取方法,并详细讨论了它们的性能。实验研究表明,基音参数相对于短时倒谱参数,其本身所携带的话者特征信启、较少,但是它们的噪声鲁棒性较好,并且和短时倒谱参数的相关性小,可以作为有效的辅助参数。
2.针对较难提取的超音段信息,本文提出了一种基于小波分析的超音段韵律参数提取方法。对基音和能量随时间的变化轨迹做小波分析,并从概貌系数中提取韵律参数。实验证明了在训练语音充分的条件下,这种超音段韵律参数的识别性能比短时基音参数有显著的提高。系统等误识率相对下降30%。
3.为了发挥各种参数的互补性,我们讨论了多种参数融合的说话人确认系统,给出了基于评分融合的系统结构。实验表明,多参数融合系统性能优于任一个子系统的性能。
4.针对大规模的说话人确认系统中,不同说话人模型的输出评分分布不同造成系统整体分类性能变差的问题,提出了一种新的整体规整方法(Entire-Normalization)。这种评分规整使得所有语音的输出评分具有相似的分布,从而使系统的整体分类能力得到保证,利于鲁棒性确认阈值的设置。