语种识别中鲁棒性特征研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：wdtt111

【摘要】

：

语种识别是指计算机自动判定一段语音所属的语言种类的技术，在近几年中，其应用需求显著增加。语种识别中的一个重要研究问题是提取语音的语种鉴别性信息。一般来讲，一个成功的语

【作者】

：

张健

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2016年期

【关键词】

：

语种识别语音时域伸缩变换音素对数似然比特征音素对数域后验概率特征瓶颈特征

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

语种识别是指计算机自动判定一段语音所属的语言种类的技术，在近几年中，其应用需求显著增加。语种识别中的一个重要研究问题是提取语音的语种鉴别性信息。一般来讲，一个成功的语种识别特征应当能够提取足量的语种鉴别性信息，同时容易对其进行建模。本文主要研究了应用于语种识别的特征。主要研究工作和创新点包括:　　1.提出了一个基于语音时域伸缩(time-scale modification，TSM)技术的时长扩展算法。在语种识别技术中，当待识别语音时长少于约10秒的短时情况下，性能往往会急剧下降。为了解决这个问题，本文提出应用TSM技术来直接增加语音的时长。TSM的主要功能是改变语音的长度（从而改变了语速），而保持其他频域信息不变。　　本文所提算法实现方式如下:首先，对一段待识别语音，应用TSM技术转换为多条时域压缩和时域拉伸后的语音。然后，将这些不同语速的语音与原语音拼接起来，生成一个时长较长的语音。实验结果证明本文所提出的语音时长扩展算法可以显著提升短时语音的语种识别性能。　　2.提出来一个基于F比分析的特征优化方法。语种鉴别型特征的提取是语种识别技术中一个重要的问题。最近，帧级的音素对数似然比特征(phone log-likelihood ratio，PLLR)和音素对数域后验概率(phone logposteriors，PL)特征被引入到了语种识别，表现出来很好的性能。这些特征已被多次证明超越了传统特征，并且容易应用到声学层最优秀的系统当中，如总变化量因子分析技术(ivect or)或者高斯超向量-支持向量机(GMM super vector-support vector machines，GSV-SVM)。　　为了进一步提升PLLR特征的语种鉴别性，我们提出了一个基于F比分析的特征优化方法。在本文中，我们用F比来度量PLLR特征向量各维对语种识别的贡献。基于F比的量化结果，我们提出了一个新特征，即加权音素对数似然比(weighted phone log-likelihood ratio，WPLLR)，对F比值比较高的那些维赋予高的权重。在NIST07测试集上的实验显示，本文所提出的WPLLR特征在minDCF和EER两个指标上有显著的性能提升。　　3.提出了一个优化了目标语种与非目标语种间语种鉴别性的特征。传统语种识别中的特征没有考虑目标语种与其他背景语种间的鉴别性。而在安全领域的应用中，常常要求从海量语音数据中挑出存在量很少的某特殊语种的语音。这就要求特征能够最大程度提取该语种与其它背景语种间的差异，而忽略这些背景语种之间的区别。为了实现这个目标，在本文中，我们再次利用F比分析方法，提出了加权音素对数域后验概率(weighted phone log-posteriors，WPL)特征。在NIST07上的实验显示，优化后的WPL特征比PL特征更加有效，在GSV-SVM系统上EER指标有了显著的降低。　　4.研究了基于深度神经网络(Deep Neural Networks，DNNs)提取的瓶颈(Bottleneck，BN)特征。BN特征首先在语音识别领域得到应用，相对于声学层特征来说，优势并不明显。在本文中，我们研究了BN特征在语种识别中的应用。我们首先训练了一个带有瓶颈层的DNN。瓶颈层的输出即为BN特征，然后用于语种识别系统。实验结果显示，BN特征对长时语音语种识别性能的提升非常显著。

其他文献

精品课程试题库的设计与实现

高校教务管理工作中一项非常重要的工作就是考试管理工作，每学期教师都会为了出一套或几套试卷而翻阅大量的书籍，或使用现成的试题，或自己编题。这种出卷方式不仅工作任务繁重而

学位

精品课程试题库管理系统遗传算法智能组卷

针对web容器的软件安全漏洞技术研究与实现

随着计算机的应用的领域越来越广泛,计算机的软件的数量也以几何级数在增长。软件在带给人们快捷方便的生活的同时,也带来了大量的无法避免的软件安全漏洞。无论是Windows系

学位

软件安全漏洞web容器metasploit框架SSH

重钢4100mm轧钢MES系统研究

制造业是我国国民经济的支柱产业。入世之后，中国将成为世界的制造业生产基地面对日趋激烈的市场竞争制造企业急需提高生产效率改进生产现场管理策略于是一种面向企业车间层的

学位

制造执行系统信息管理系统环保搬迁4100mm轧钢钢铁制造企业

手机3D动画自动生成系统中动画定量计算的设计与实现

全过程计算机辅助动画自动生成技术是一种新的基于人工智能的动画生成技术，主要研究的是将人工智能技术引入动画生成的全过程，该技术从用自然语言书写的故事开始，直至最终生成动

学位

手机动画自动生成动画定量计算语义网空间规划人工智能

基于深度学习的行人再识别研究

行人重现识别是指在监控摄像网络中发现特定目标行人的任务，相关研究成果可用于安全监控和智能侦查等领域。该问题对于国家安全具有重要的意义，其研究具有较好的理论意义和应用

学位

行人重现识别特征提取深度学习全卷积网络

一种可信任环境下的微型嵌入式虚拟机的设计和实现

虚拟化技术的出现拯救了复杂多样的硬件平台与多种多样的操作系统之间、或者多种操作系统与基于系统的应用开发之间的复杂性。例如,随着高级语言虚拟机JAVA虚拟机的出现,JAVA

学位

嵌入式虚拟机JEFF转换器内存管理节约资源

一种特征模型的构造与一致性保障技术研究

软件复用是提高软件开发效率和软件质量的一种有效手段。研究和实践表明，在特定领域内对软件资产和经验进行复用更易获得成功。特定领域内的软件复用包含领域工程和应用工程两

学位

需求复用领域分析特征建模一致性保障软件复用

基于反射率的多尺度水表面重建方法研究

随着人们生活水平的不断提高，对于电视、电影、三维游戏中的特效真实感的需求也不断增强，水的模拟在其中应用非常广泛，因此图形学中流体模拟领域一直都是研究的热点。但与此同时

学位

水面动画三维重建数据驱动反射率

基于ASP.NET的多媒体课程教学网站的设计与实现

网络教学是现代教育技术综合应用中的一个重要领域，也是实现教育信息化的重要手段。随着信息化时代的不断向前发展，各个高校的校园网建设也已经初具规模，顺应教育教学体制改革的

学位

高校教育多媒体教学网站设计ASP.NET技术B/S模式

Web应用在线故障诊断框架的设计与实现

随着Internet的快速发展，以Web应用为主要形式的网络服务已成为现代社会不可或缺的重要组成部分，保障网络服务的正常运行并有良好的服务质量十分关键。软件故障诊断技术是一种

学位

故障诊断Web应用系统度量自动化程度

语种识别中鲁棒性特征研究

其他学术论文