论文部分内容阅读
语音是人类日常生活中获取和传递消息最为便捷的一种主要媒介,它携带着丰富的信息。由于每个人的声道结构在出生时就被决定,并且每个人都是独一无二的,这使得利用说话人的声音来辨别身份的生物技术成为了现实。在生物识别领域中,影响识别结果的两个重要因素分别是分类模型和特征参数,一旦选定了所用的模型,识别性能主要依赖于特征参数的选择。高质量的特征参数不仅可以减少系统的误判概率,并且还能够缩短训练模型和分类所用的时间。因此,从语音信号中提炼出与说话人身份具有高度相关性的特征是一个重要的研究课题。针对上述问题,本文提出了基于深浅层融合特征的说话人识别系统以及基于优化权系数融合特征的说话人识别系统。本文开展的研究如下:(1)首先对说话人识别相关的研究背景以及工作意义进行充分了解,然后阐述了说话人识别的基本知识,主要包括本文所用到的语音预处理技术、声学特征参数MFCC提取的具体流程、SVM分类器的原理。另外,为了去除特征中可能包含的冗余信息,引入了两种特征筛选策略,为后续展开的研究提供技术基础。(2)为了找到一种鲁棒性更强并能够全面对说话人身份信息进行表征的特征,本文在对GMM和DNN深入研究后,提出了一种基于深浅层融合特征的说话人识别系统。传统特征表示的是有关声道结构方面的物理信息,它是一种浅层的表述,而DNN挖掘的是更深层的特征,是一种更为抽象的描述,将它们融合能够使得性能互补。该方法首先提取MFCC参数然后分别利用两个不同分支进行进一步处理。一方面输入到DNN中来提取深度特征并进一步通过GMM获取深度高斯超矢量,另一方面直接通过GMM获得传统高斯超矢量。最后将二者水平拼接组成一种新的特征,基于该特征对SVM进行训练和对说话人身份进行辨认。通过实验仿真发现,所提出的融合特征能够有效地提升识别率。(3)当说话人的个数增加时,系统的识别率将会降低。另外,在基于融合特征的说话人识别系统中,不同特征对最后的识别结果贡献程度不同。为了更加准确对其进行衡量,通过对两种寻优算法进行研究,提出了基于优化权系数融合特征的说话人识别系统。在对三种特征进行融合前,先利用GA或者SA算法对各自的权重系数进行寻优,然后乘以对应的系数进行融合来构建一种新的说话人识别系统。通过实验结果表明,对特征进行加权再进行融合的识别性能要优于直接进行融合时的特征性能。