论文部分内容阅读
说话人识别就是从说话人的一段语音中提取出说话人的个性特征,通过对这些个性特征的分析和识别,从而达到对说话人进行辨认或者确认的目的。与文本无关的说话人识别具有用户使用方便、可应用范围较宽等优点,是当前说话人识别技术的研究重点。本文对文本无关说话人识别系统中的码本设计、特征参数提取以及鲁棒性等方面进行了研究,取得了一些研究成果。无论在矢量量化(VQ)说话人识别系统中,还是在高斯混合模型(GMM)说话人识别系统中,码本的设计都是一个比较重要的部分。在基于VQ的识别系统中,码本的优劣影响VQ算法的识别性能,在GMM识别系统中参数的初始化也涉及码本的设计。本文在LBG算法和Kohonen网络算法的基础上,提出改进的码本形成算法,改善了码本的性能。在特征参数方面,寻找新的有效的说话人识别特征参数和已有特征参数的有效组合是说话人识别参数提取研究的热点。本文通过对Mel子带系数进行修正和组合,增强了说话人识别系统中说话人之间的频带差异,提高了特征空间中类别的可分性,得到了更能体现说话人个性特征的Mel子带系数,从而提高了说话人识别系统的平均正确识别率。最后,本文在分析各个Mel子带抗噪性能的基础上,提出了鲁棒性的说话人识别算法,提高了说话人识别系统在噪声环境下的识别率。