论文部分内容阅读
大规模人群条件下说话人识别技术的研究面临着许多亟待解决的问题,包括通道子空间的鲁棒性问题,说话人子空间的覆盖问题,语种的无关性和处理速度的高效性等。为了提高大规模人群条件下说话人识别系统的鲁棒性和高效性,论文在因子分析算法,语种失配补充算法,说话人快速识别算法和说话人搜索算法上进行了重点研究,主要工作包括:
1:提出了基于残差因子分析的说话人识别技术。在大规模人群说话人识别系统中,训练和测试环境的失配会造成系统识别性能的急剧下降。本文深入研究了基于信道子空间和说话人子空间的识别技术,在联合因子分析的基础上,为了解决说话人子空间的覆盖问题,提出残差因子分析及其快速算法,实验证明,该算法能说话人子空间覆盖不足的情况下,有效的提高系统的性能。
2:提出了基于因子分析和得分规整的语种补偿技术。虽然基于高斯混合模型的说话人识别系统是文本无关的系统,但是在实验中我们发现,语种对其的影响仍然很大,这种影响在跨语种说话人识别中尤为突出。针对语种失配对说话人识别的影响,本文在模型层和得分规整分别提出了相应的语种补偿算法,并在此基础上,考虑到语种信息的获取问题,探讨了半监督和无监督两种语种规整算法,实验证明,该算法能极大得提高跨语种说话人识别的性能。
3:提出了基于说话人度量空间的快速识别算法。虽然基于高斯混合模型的说话人识别系统的有效性已经得到了公认,但是其缓慢的计算速度影响了其走向实用的进程。本文在高斯模型似然概率公式的基础上,定义了说话人度量空间,并引入了基于说话人度量空间的内积、夹角和归一化距离,实验证明,采用基于说话人度量空间的说话人快速识别算法,在极大得提高原有识别速度的同时,也能有效的提高说话人识别系统的性能。
4:提出了基于说话人度量空间的索引技术。为了进一步提高大规模人群条件下说话人识别的速度,本文在说话人度量空间的基础上,提出基于高维空间索引的说话人搜索算法和基于聚类的说话人搜索算法。