论文部分内容阅读
近年来,基于深度神经网络的语种识别技术发展迅速。随着深度学习理论的进步,基于深度神经网络的语种识别技术经历了从生成式框架到判别式框架的转变,极大地提升了语种识别系统的性能。本文主要围绕语种识别技术中存在的底层声学特征不鲁棒、后端语种建模区分性差、系统框架繁琐以及在短时语音段性能下滑明显等问题,以深度学习为理论基础,重点关注不同神经网络模型结构、不同系统框架下的语种建模方法。分别从特征域和模型域层面展开研究,主要创新成果如下: 1.提出了一种利用深度神经网络模型提取音素相关深瓶颈特征(DeepBottleneck Feature,DBF)并融合的方法。本文用带bottleneck层的深度神经网络(Bottleneck-Deep Neural Network,BN-DNN)提取DBF特征,该DBF特征是多帧底层声学特征经过BN-DNN模型多层非线性变换得到的高层抽象特征,能有效抑制说话人差异、信道差异以及环境噪声等语种无关因素的干扰,提升特征的鲁棒性。同时,本文进一步将基于DBF特征的iVector语种识别系统在特征域和分数域进行融合,实现多语言DBF特征并行的语种识别方法,相比基于底层声学特征的iVector系统,在3s、10s、30s测试条件下,识别性能分别提升28.43%、43.75%、61.22%。 2.提出了一种融合深瓶颈特征和音子后验DNN(Posterior DNN,PDNN)的总体差异空间(Total Variability,TV)建模方法。在模型域层面,用音素相关判别式PDNN模型代替生成式高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal Background Model, GMM-UBM)模型,将底层声学特征和具有明确物理意义的音素单元建立联系,为提取充分统计量提供更精确的音子类后验概率。利用PDNN提供的音子类后验概率,提取出一种稀疏的、包含丰富音素信息的累加充分统计量,改善了后端TV建模的效果。同时,本文进一步提出了融合DBF特征和PDNN的iVector语种识别方法,保持了标准iVector后端提取过程不变,显著提升了语种识别系统的性能。 3.提出了一种带控制门的递归记忆增强网络模型,实现了特征提取、特征变换、分类器同步优化的判别式帧级语种分类方法。该判别式语种识别方法利用递归神经网络模型强大的时序建模能力,在特征帧和语种类别之间建立直接的映射关系,实现了在声学特征帧层面进行语种分类的方法,极大地改善了语种识别系统在短时语音测试条件下的识别性能。本文基于递归神经网络模型和序列记忆增强模块,增强了声学特征帧的表示性和语种区分性,结合本文改进的模型优化方法,比生成式GMM-iVeetor方法,在3s测试条件下,EER相对下降39.97%。 4.将注意力信号机制应用到语种识别关键帧的选择中,设计了语种任务相关的Attention模型,构建了句级分类的端到端判别式语种识别系统。该Attention模型由编码模块,注意力选择和句级向量生成模块以及分类器模块构成。Attention模型以带控制门的递归神经网络模型为基本模型,利用递归神经网络模型强大的时序建模特性,生成语音声学特征帧的高层抽象表示,通过Attention机制选择特征序列中的关键帧,在模型内部将特征序列压缩成固定维度的句级向量,实现句级层面的语种分类。该方法首次在神经网络模型模型内部生成句级向量以及建立句级向量和语种类别的映射关系,搭建了端到端的语种识别框架,在短时语音测试条件下取得了良好的识别性能,极大地降低了搭建语种识别系统的复杂度。