面向语种识别的深度神经网络建模方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:aiminis
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,基于深度神经网络的语种识别技术发展迅速。随着深度学习理论的进步,基于深度神经网络的语种识别技术经历了从生成式框架到判别式框架的转变,极大地提升了语种识别系统的性能。本文主要围绕语种识别技术中存在的底层声学特征不鲁棒、后端语种建模区分性差、系统框架繁琐以及在短时语音段性能下滑明显等问题,以深度学习为理论基础,重点关注不同神经网络模型结构、不同系统框架下的语种建模方法。分别从特征域和模型域层面展开研究,主要创新成果如下:  1.提出了一种利用深度神经网络模型提取音素相关深瓶颈特征(DeepBottleneck Feature,DBF)并融合的方法。本文用带bottleneck层的深度神经网络(Bottleneck-Deep Neural Network,BN-DNN)提取DBF特征,该DBF特征是多帧底层声学特征经过BN-DNN模型多层非线性变换得到的高层抽象特征,能有效抑制说话人差异、信道差异以及环境噪声等语种无关因素的干扰,提升特征的鲁棒性。同时,本文进一步将基于DBF特征的iVector语种识别系统在特征域和分数域进行融合,实现多语言DBF特征并行的语种识别方法,相比基于底层声学特征的iVector系统,在3s、10s、30s测试条件下,识别性能分别提升28.43%、43.75%、61.22%。  2.提出了一种融合深瓶颈特征和音子后验DNN(Posterior DNN,PDNN)的总体差异空间(Total Variability,TV)建模方法。在模型域层面,用音素相关判别式PDNN模型代替生成式高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal Background Model, GMM-UBM)模型,将底层声学特征和具有明确物理意义的音素单元建立联系,为提取充分统计量提供更精确的音子类后验概率。利用PDNN提供的音子类后验概率,提取出一种稀疏的、包含丰富音素信息的累加充分统计量,改善了后端TV建模的效果。同时,本文进一步提出了融合DBF特征和PDNN的iVector语种识别方法,保持了标准iVector后端提取过程不变,显著提升了语种识别系统的性能。  3.提出了一种带控制门的递归记忆增强网络模型,实现了特征提取、特征变换、分类器同步优化的判别式帧级语种分类方法。该判别式语种识别方法利用递归神经网络模型强大的时序建模能力,在特征帧和语种类别之间建立直接的映射关系,实现了在声学特征帧层面进行语种分类的方法,极大地改善了语种识别系统在短时语音测试条件下的识别性能。本文基于递归神经网络模型和序列记忆增强模块,增强了声学特征帧的表示性和语种区分性,结合本文改进的模型优化方法,比生成式GMM-iVeetor方法,在3s测试条件下,EER相对下降39.97%。  4.将注意力信号机制应用到语种识别关键帧的选择中,设计了语种任务相关的Attention模型,构建了句级分类的端到端判别式语种识别系统。该Attention模型由编码模块,注意力选择和句级向量生成模块以及分类器模块构成。Attention模型以带控制门的递归神经网络模型为基本模型,利用递归神经网络模型强大的时序建模特性,生成语音声学特征帧的高层抽象表示,通过Attention机制选择特征序列中的关键帧,在模型内部将特征序列压缩成固定维度的句级向量,实现句级层面的语种分类。该方法首次在神经网络模型模型内部生成句级向量以及建立句级向量和语种类别的映射关系,搭建了端到端的语种识别框架,在短时语音测试条件下取得了良好的识别性能,极大地降低了搭建语种识别系统的复杂度。
其他文献
随着气象研究的深入,国内外研究人员发现中气旋这种强对流天气与雷雨、大风、冰雹、龙卷等灾害性天气密切相关,对于中气旋等强对流天气的识别研究也不断获得重视。随着多普勒天
随着人们生活节奏的加快,生活、工作等各方面压力的增加以及饮食的不合理,致使心血管疾病频发。心血管病之一的高血压已经越来越严重的威胁着人们的健康。血压测量已成为临床上
在pH中和过程控制中,被控对象的动态性往往呈现出严重的非线性和滞后性,这使得难以对其建立比较精确的模型,从而难于精确表达pH中和过程及实施整体优化控制。而Takagi和Sugeno于
随着微机电系统(Micro-Electro-Mechanism System, MEMS)、片上系统(SOC,System on Chip)、无线通信和低功耗嵌入式技术的飞速发展,孕育出无线传感器网络(Wireless Sensor Networks, WSN),并以其低功耗、低成本、分布式和自组织的特点带来了信息感知的一场变革。无线传感器网络中每个节点能源的有限性极大的束缚了无线传感器网路的发展
汽车仪表是驾驶员与汽车进行信息交流的重要窗口,对汽车的安全与经济行驶起着重要的作用。随着计算机技术的发展,嵌入式GUI作为人机界面的软件系统,己经被广泛应用。为了更好
高速、高精度的自动灌装设备和飞剪剪切设备长期以来处于国外垄断之中,而多轴同步控制技术是这类自动化设备必须解决的关键技术之一,也是国家数控科技重大专项中的关键技术之一
现代军用和民用导航系统需要详细的载体运动状态信息来进行载体控制。由陀螺仪和加速度计等传感器构成的捷联惯性导航系统以其独特的优点被广泛应用于导航系统中,实时自主地为
近年来,三相电压型PWM整流器做为电力电子设备的重要组成部分被广泛应用到工业节能和新能源发电中,对其性能的期望也越来越高。在电网不平衡时,采用常规控制策略的电压型PWM整流
自动文摘(Automatic Document Summarization,ADS)是自然语言处理领域的一个子领域。它是利用计算机系统自动生成文本摘要的应用技术,或者说是按读者(或用户)的要求以简洁的形
经过近几十年的积累,自主水下机器人(Autonomous Underwater Vehicles,AUVs)的技术逐渐发展成熟,目前已经在海洋开发、军事活动等领域发挥了重要作用。但随着人们对AUV能力的