论文部分内容阅读
说话人识别技术(又称为声纹识别技术),与指纹识别、人脸识别等一样,都是生物识别技术的一个分支。与其他几个生物识别技术相比,说话人识别技术具有独特的优势,也有着它的劣势。为了提高说话人识别的准确率,引入高斯超向量,高斯超向量虽然几乎包含了说话人的全部特征,但也包含了许多没有价值的信息,如何对高斯超向量进行降维,是本文研究的重点。传统的线性降维算法如PCA、FA等,是十分常见的降维算法,因为这些降维算法简单、高效,因此使用广泛。然而这些线性降维算法对超向量进行降维的时候有一个问题,那就是这些线性降维算法会去除非线性特征,只保留线性特征。深度学习算法处理数据的时候可以保留数据中的非线性特征,因此可以将其运用到说话人降维中去。本文主要的工作和创新点如下:(1)本文对传统的线性降维算法进行研究,使用传统的线性降维算法对高斯超向量进行降维,并运用与完整的说话人识别系统中去。说话人识别系统进行说话人识别一般是利用语音样本之间的距离来判断其相似度,语音样本之间的距离越小说明样本的相似度越高,样本越相似。不同的距离相似度度量结果有一定的不同,本文使用的是PLDA对样本相似度进行打分。(2)将深度学习技术中的受限玻尔兹曼机引入到说话人识别中去,利用深度学习具有较强的深层次信息提取能力以及非线性建模的能力,提取出效果更好的i-vector,并运用到说话人识别系统中去。