面向语种识别的深度神经网络建模方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：aiminis

【摘要】

：

近年来，基于深度神经网络的语种识别技术发展迅速。随着深度学习理论的进步，基于深度神经网络的语种识别技术经历了从生成式框架到判别式框架的转变，极大地提升了语种识别系统的

【作者】

：

耿旺

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2017年期

【关键词】

：

语种识别特征提取语种建模神经网络模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来，基于深度神经网络的语种识别技术发展迅速。随着深度学习理论的进步，基于深度神经网络的语种识别技术经历了从生成式框架到判别式框架的转变，极大地提升了语种识别系统的性能。本文主要围绕语种识别技术中存在的底层声学特征不鲁棒、后端语种建模区分性差、系统框架繁琐以及在短时语音段性能下滑明显等问题，以深度学习为理论基础，重点关注不同神经网络模型结构、不同系统框架下的语种建模方法。分别从特征域和模型域层面展开研究，主要创新成果如下:　　1.提出了一种利用深度神经网络模型提取音素相关深瓶颈特征(DeepBottleneck Feature，DBF)并融合的方法。本文用带bottleneck层的深度神经网络(Bottleneck-Deep Neural Network，BN-DNN)提取DBF特征，该DBF特征是多帧底层声学特征经过BN-DNN模型多层非线性变换得到的高层抽象特征，能有效抑制说话人差异、信道差异以及环境噪声等语种无关因素的干扰，提升特征的鲁棒性。同时，本文进一步将基于DBF特征的iVector语种识别系统在特征域和分数域进行融合，实现多语言DBF特征并行的语种识别方法，相比基于底层声学特征的iVector系统，在3s、10s、30s测试条件下，识别性能分别提升28.43％、43.75％、61.22％。　　2.提出了一种融合深瓶颈特征和音子后验DNN(Posterior DNN，PDNN)的总体差异空间（Total Variability，TV）建模方法。在模型域层面，用音素相关判别式PDNN模型代替生成式高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal Background Model, GMM-UBM)模型，将底层声学特征和具有明确物理意义的音素单元建立联系，为提取充分统计量提供更精确的音子类后验概率。利用PDNN提供的音子类后验概率，提取出一种稀疏的、包含丰富音素信息的累加充分统计量，改善了后端TV建模的效果。同时，本文进一步提出了融合DBF特征和PDNN的iVector语种识别方法，保持了标准iVector后端提取过程不变，显著提升了语种识别系统的性能。　　3.提出了一种带控制门的递归记忆增强网络模型，实现了特征提取、特征变换、分类器同步优化的判别式帧级语种分类方法。该判别式语种识别方法利用递归神经网络模型强大的时序建模能力，在特征帧和语种类别之间建立直接的映射关系，实现了在声学特征帧层面进行语种分类的方法，极大地改善了语种识别系统在短时语音测试条件下的识别性能。本文基于递归神经网络模型和序列记忆增强模块，增强了声学特征帧的表示性和语种区分性，结合本文改进的模型优化方法，比生成式GMM-iVeetor方法，在3s测试条件下，EER相对下降39.97％。　　4.将注意力信号机制应用到语种识别关键帧的选择中，设计了语种任务相关的Attention模型，构建了句级分类的端到端判别式语种识别系统。该Attention模型由编码模块，注意力选择和句级向量生成模块以及分类器模块构成。Attention模型以带控制门的递归神经网络模型为基本模型，利用递归神经网络模型强大的时序建模特性，生成语音声学特征帧的高层抽象表示，通过Attention机制选择特征序列中的关键帧，在模型内部将特征序列压缩成固定维度的句级向量，实现句级层面的语种分类。该方法首次在神经网络模型模型内部生成句级向量以及建立句级向量和语种类别的映射关系，搭建了端到端的语种识别框架，在短时语音测试条件下取得了良好的识别性能，极大地降低了搭建语种识别系统的复杂度。

其他文献

基于多普勒天气雷达的中气旋识别算法研究

随着气象研究的深入，国内外研究人员发现中气旋这种强对流天气与雷雨、大风、冰雹、龙卷等灾害性天气密切相关，对于中气旋等强对流天气的识别研究也不断获得重视。随着多普勒天

学位

多普勒天气雷达中气旋识别强对流天气模式识别分水岭斜小波变换匹配定位

无创血压计示波法适应性算法研究

随着人们生活节奏的加快，生活、工作等各方面压力的增加以及饮食的不合理，致使心血管疾病频发。心血管病之一的高血压已经越来越严重的威胁着人们的健康。血压测量已成为临床上

学位

无创血压测量示波法上下位机系统软件算法通信协议

基于酸碱中和过程的模糊预测PID的控制方法研究

在pH中和过程控制中，被控对象的动态性往往呈现出严重的非线性和滞后性，这使得难以对其建立比较精确的模型，从而难于精确表达pH中和过程及实施整体优化控制。而Takagi和Sugeno于

学位

酸碱中和T-S模糊模型协同模糊聚类广义预测控制预测PID

基于最大功率跟踪技术的WSN智能供电系统研究

随着微机电系统(Micro-Electro-Mechanism System, MEMS)、片上系统(SOC,System on Chip)、无线通信和低功耗嵌入式技术的飞速发展,孕育出无线传感器网络(Wireless Sensor Networks, WSN),并以其低功耗、低成本、分布式和自组织的特点带来了信息感知的一场变革。无线传感器网络中每个节点能源的有限性极大的束缚了无线传感器网路的发展

学位

WSN供电MPPT锂离子电池电量

基于嵌入式的数字汽车仪表的设计与实现

汽车仪表是驾驶员与汽车进行信息交流的重要窗口,对汽车的安全与经济行驶起着重要的作用。随着计算机技术的发展,嵌入式GUI作为人机界面的软件系统,己经被广泛应用。为了更好

学位

汽车数字仪表车载导航车载诊断嵌入式系统

主从同步系统智能控制关键技术研究

高速、高精度的自动灌装设备和飞剪剪切设备长期以来处于国外垄断之中，而多轴同步控制技术是这类自动化设备必须解决的关键技术之一，也是国家数控科技重大专项中的关键技术之一

学位

重复控制扰动观测器预见控制神经网络控制主从同步系统智能控制

基于机器学习的捷联惯性导航系统的初始对准方法研究

现代军用和民用导航系统需要详细的载体运动状态信息来进行载体控制。由陀螺仪和加速度计等传感器构成的捷联惯性导航系统以其独特的优点被广泛应用于导航系统中，实时自主地为

学位

捷联惯导系统初始对准机器学习最小二乘支持向量机自适应卡尔曼滤波

电网不平衡时三相电压型PWM整流器的无源控制

近年来，三相电压型PWM整流器做为电力电子设备的重要组成部分被广泛应用到工业节能和新能源发电中，对其性能的期望也越来越高。在电网不平衡时，采用常规控制策略的电压型PWM整流

学位

电压型PWM整流器电网不平衡无源控制

文本自动摘要方法研究

自动文摘(Automatic Document Summarization，ADS)是自然语言处理领域的一个子领域。它是利用计算机系统自动生成文本摘要的应用技术，或者说是按读者(或用户)的要求以简洁的形

学位

自动文摘半条件随机场排序学习潜层狄利赫雷分配复述句识别自然语言处理

基于自主计算思想的水下机器人体系结构研究

经过近几十年的积累,自主水下机器人(Autonomous Underwater Vehicles,AUVs)的技术逐渐发展成熟,目前已经在海洋开发、军事活动等领域发挥了重要作用。但随着人们对AUV能力的

学位

水下机器人体系结构自主计算控制系统Petri网卡尔曼滤波器自主导航

面向语种识别的深度神经网络建模方法研究

其他学术论文