基于深层神经网络的语音增强方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:feicheng11
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音增强是语音信号处理研究领域的一个重要分支。在过去的几十年中,有很多无监督的语音增强方法被提出,它们主要是通过先估计噪声的谱信息,然后从带噪语谱中将估计的噪声谱减掉以得到对干净语音谱的预测。但是由于噪声的随机性和突变性,使得对噪声的跟踪和估计变得困难。同时在传统的语音增强方法中,考虑到噪声和语音间的相互作用关系很复杂,就需要一些对信号间的独立性假设以及对特征分布的高斯性假设,而这些假设通常是不合理的。首先,传统的语音增强方法会残留很多噪声,甚至是音乐噪声。其次,语音的细节也在较大程度上受到破坏,这主要体现在对低信噪比语音的增强中。再者,极端非平稳噪声一直是传统语音增强方法中比较棘手的地方,因为非平稳噪声的突发性,使得它始终处于被欠估计状态,难以从带噪语音中去掉,可实际声学环境中,各种非平稳噪声又是大概率发生事件。最后,传统的语音增强方法易引入一些非线性失真,使得其对后端的语音识别或语音编码产生不良影响。近年来,随着深层神经网络(Deep Neural Network, DNN)在语音识别领域的成功应用,给了语音增强任务的研究人员很多启发。DNN的深层非线性结构可以被设计成一个精细的降噪滤波器。同时基于大数据训练,DNN可以充分学习带噪语音和干净语音之间的复杂的非线性关系。另外DNN的训练是离线学习的,如同人一样,它能记住一些噪声的模式,因而可以很好地抑制一些非平稳噪声。而在本论文中,我们提出一种几乎无任何假设的基于DNN的语音增强方法,并针对实际环境中语音增强问题展开了一系列系统性的研究。首先我们提出了基于DNN的语音增强方法框架,对数功率谱被用作训练DNN模型的特征。DNN则作为映射函数,可以从带噪语音中预测出干净语音。而DNN的训练是分两步进行的,即预训练和有监督训练。预训练是基于受限玻尔兹曼机(Restricted Boltzmann Machine, RBM)的逐层贪婪式初始化,它可以防止DNN陷入局部最优。而有监督调优可以精准地学习带噪语音和干净语音之间的非线性关系。其次,DNN是一种有监督的学习模型,凡是有监督的模型都存在如何应对测试集不匹配问题,也即如何提升系统的泛化能力。上百种类型的噪声数据被用来构建大规模训练数据,以此提高DNN模型对未见的测试噪声环境的适应性。同时我们发现,通过此种方法,系统对非平稳噪声有非常强的抑制能力。噪声告知训练也可以进一步地增强模型对测试噪声环境的预见能力。而丢弃(Dropout)法可以防止训练出现过拟合现象。另外,我们还针对DNN作为回归模型出现的过平滑问题,提出了全局方差均衡方法以提升增强的语音的听感。再者,对测试中的不匹配带噪语音需要做自适应,这个不匹配主要有:能量不匹配,噪声环境不匹配和语言不匹配等方面。因此我们分别在特征层面,提出了均值移位方法,来解决测试语音的特征分布不一致的问题。而对于噪声类型不匹配问题,我们提出了一种动态的噪声告知训练方法,即先用IBM动态地估计每一帧的噪声,然后用来辅助DNN的学习。语言不匹配问题,主要存在于跨语种测试的时候,由于不同语系发音上的差异性导致的丢音问题。我们提出了通过转移学习的方法,来自适应地解决这个问题。最后,对数功率谱上的最小均方误差是训练DNN的目标函数,但是直接去优化这个目标函数有一定困难的。我们提出了一种间接的目标函数优化方式。考虑到对数功率谱域上的各个维度间是相互独立的,因此我们把梅尔倒频谱参数(Mel Frequency Cepstrum Coefficient, MFCC)融合到系统中来,让DNN去联合优化对数功率谱特征和MFCC特征。利用MFCC的每个参数都包含了频率各个维度间的相关性来限制对对数功率谱的估计,以得到一个在频率各个维度上误差更具有一致性的特征预测。除了MFCC这种连续性信息,我们还可以用一些具有分类特性的元信息来作为对对数功率谱预测的辅助项,比如IBM,它显式地表征了当前时间频率单元是噪声主导的还是语音主导的。另外,经过聚类的噪声编码也用来辅助DNN对对数功率谱特征的学习。在本论文的最后,我们给出了全文总结,并对该课题的未来进行了展望。
其他文献
编前语坚持面向"三农",以市场需求和就业为导向,为农村富余劳动力提供就业技能培训,这是新形势给职业教育提出的重大课题.鹤山市农机学校、江门新会机电中专学校与时俱进,成
素描是单色彩表现物体客观形态.而色彩则是在素描的基础上把握色彩规律,考虑环境因素,创造艺术的整体效果。一、素描与色彩的关系 素描与色彩是相辅相成的.学习素描的主要任务是
自古以来,中国就是世界上最为重要的农业大国之一,并产生了灿烂的农耕文明。然而,工业革命后的中国农村和世界先进国家的差距却在拉大,越来越滞后的农业成为最突出的特征之一
目的 :探讨对行髁支持钢板固定联合植骨术的股骨远端C型骨折患者进行优质护理的临床效果。方法 :对2009年6月~2014年6月期间在我院进行髁支持钢板固定联合植骨术的50例股骨远
结合幼师声乐课教学实践.笔者发现.初学声乐的学生在歌唱时往往会出现紧张和肌肉僵硬.高声区的演唱有时甚至会造成呼吸不通畅.相关的肌肉不能协调运动.造成声音无法充分表达。
经省政府同意,广东省交通厅、广东省农业厅、广东省公安厅根据国务院《收费公路管理条例》第七条“进行跨区作业的联合收割机、运输联合收割机(包括插秧机)的车辆,免交车辆通行费
滑县县委、县政府以科学发展观为统领,进一步明确工作任务、强化工作措施.围绕资金投入、招生就业、增强职业教育服务能力等方面开展攻坚工作。一是积极争取国家资金支持,加大对
面对日趋激烈的市场竞争,企业对高职会计电算化专业人才的要求日趋职业化。充分认识实践教学在高职会计电算化专业教学中的地位,改革传统的会计教学方法,突出专业教学特色,构
职校毕业生大部分要从学校走向社会,走向各种工作岗位,因此必须对他们进行择业教育、创业教育、职业道德教育。培养他们吃苦耐劳、团结协作、互助友爱、无私奉献的精神。因而德
一位朋友告诉大家,他驾照考了三回,我们都笑:"这也太逊了吧!"然而他正色道:"我不是为了考证而考证,我是要做到驾驶技术真正保险后才上路。"这是闲话。但这位仁兄"不是为了考证而考证