论文部分内容阅读
语种识别是指计算机自动判定一段语音所属的语言种类的技术,在近几年中,其应用需求显著增加。语种识别中的一个重要研究问题是提取语音的语种鉴别性信息。一般来讲,一个成功的语种识别特征应当能够提取足量的语种鉴别性信息,同时容易对其进行建模。本文主要研究了应用于语种识别的特征。主要研究工作和创新点包括: 1.提出了一个基于语音时域伸缩(time-scale modification,TSM)技术的时长扩展算法。在语种识别技术中,当待识别语音时长少于约10秒的短时情况下,性能往往会急剧下降。为了解决这个问题,本文提出应用TSM技术来直接增加语音的时长。TSM的主要功能是改变语音的长度(从而改变了语速),而保持其他频域信息不变。 本文所提算法实现方式如下:首先,对一段待识别语音,应用TSM技术转换为多条时域压缩和时域拉伸后的语音。然后,将这些不同语速的语音与原语音拼接起来,生成一个时长较长的语音。实验结果证明本文所提出的语音时长扩展算法可以显著提升短时语音的语种识别性能。 2.提出来一个基于F比分析的特征优化方法。语种鉴别型特征的提取是语种识别技术中一个重要的问题。最近,帧级的音素对数似然比特征(phone log-likelihood ratio,PLLR)和音素对数域后验概率(phone logposteriors,PL)特征被引入到了语种识别,表现出来很好的性能。这些特征已被多次证明超越了传统特征,并且容易应用到声学层最优秀的系统当中,如总变化量因子分析技术(ivect or)或者高斯超向量-支持向量机(GMM super vector-support vector machines,GSV-SVM)。 为了进一步提升PLLR特征的语种鉴别性,我们提出了一个基于F比分析的特征优化方法。在本文中,我们用F比来度量PLLR特征向量各维对语种识别的贡献。基于F比的量化结果,我们提出了一个新特征,即加权音素对数似然比(weighted phone log-likelihood ratio,WPLLR),对F比值比较高的那些维赋予高的权重。在NIST07测试集上的实验显示,本文所提出的WPLLR特征在minDCF和EER两个指标上有显著的性能提升。 3.提出了一个优化了目标语种与非目标语种间语种鉴别性的特征。传统语种识别中的特征没有考虑目标语种与其他背景语种间的鉴别性。而在安全领域的应用中,常常要求从海量语音数据中挑出存在量很少的某特殊语种的语音。这就要求特征能够最大程度提取该语种与其它背景语种间的差异,而忽略这些背景语种之间的区别。为了实现这个目标,在本文中,我们再次利用F比分析方法,提出了加权音素对数域后验概率(weighted phone log-posteriors,WPL)特征。在NIST07上的实验显示,优化后的WPL特征比PL特征更加有效,在GSV-SVM系统上EER指标有了显著的降低。 4.研究了基于深度神经网络(Deep Neural Networks,DNNs)提取的瓶颈(Bottleneck,BN)特征。BN特征首先在语音识别领域得到应用,相对于声学层特征来说,优势并不明显。在本文中,我们研究了BN特征在语种识别中的应用。我们首先训练了一个带有瓶颈层的DNN。瓶颈层的输出即为BN特征,然后用于语种识别系统。实验结果显示,BN特征对长时语音语种识别性能的提升非常显著。