【摘 要】
:
在日常生活中,到处都充斥着背景噪声与混响,使得纯净的语音信号受到干扰,往往导致语音质量和可懂度的显著下降,特别是对于听障人士来说,听觉感知会受到极大的影响。近年来,随着深度神经网络(Deep Neural Network,DNN)在语音去混响领域的广泛应用,增强语音的客观指标有了显著的改善,然而基于人类听力测试的主观评价得分并没有获得同样程度的提高,并且由于真实环境下混响的多样性,传统的DNN很难
论文部分内容阅读
在日常生活中,到处都充斥着背景噪声与混响,使得纯净的语音信号受到干扰,往往导致语音质量和可懂度的显著下降,特别是对于听障人士来说,听觉感知会受到极大的影响。近年来,随着深度神经网络(Deep Neural Network,DNN)在语音去混响领域的广泛应用,增强语音的客观指标有了显著的改善,然而基于人类听力测试的主观评价得分并没有获得同样程度的提高,并且由于真实环境下混响的多样性,传统的DNN很难对混响语音进行有针对性的增强。这主要是由于传统DNN在进行语音去混响时没有考虑到不同程度的混响条件下不同的帧间相互作用和连续帧之间的相关性问题,而使用相同的参数来进行特征提取。此外之前的研究对如何增强噪声环境下的混响语音也研究得很少,针对这两个问题本文的主要工作包括:(1)为了使用信号处理的方法减少混响对听觉感知的影响,首先需要了解混响的物理特性及其产生原理,因此本文首先研究了封闭空间中的混响信号,总结了去混响领域的经典方法和最新研究成果,对本研究需要用到的一些基础理论进行了论述,讨论了基于监督性学习去混响算法的框架和训练步骤,以及几种广泛应用的特征及训练目标。(2)针对目前大多数语音去混响算法没有考虑到不同程度混响条件下不同的帧间相互干扰问题,提出了一种基于混响时间感知的特征提取方法,在DNN训练阶段首先对不同RT60下的语音进行分类训练,从而优化系统在不同混响环境下的去混响效果。在去混响阶段,先对混响时间进行估计,进而选择合适的帧移系数和语音上下文窗系数进行特征提取,然后再将混响语音特征输入到训练好的DNN进行去混响。在此基础上建立了一个多目标神经网络,结合了基于掩蔽估计和基于频谱映射的方法。实验结果表明,本文提出的方法相较于传统的不考虑混响时间的方法,在语音可懂度和语音质量方面都有明显提高,并且对于未知环境下的混响语音表现出较强的鲁棒性。(3)对于噪声和混响同时存在时的语音增强问题,有研究认为混响和噪声属于两种不同类型的干扰,应该分别进行处理,由此本文提出了一种两段式的语音增强策略。具体来说,降噪阶段和去混响阶段分别使用两种深度学习模型依次进行。在降噪阶段引入多目标DNN作为网络模型,使用理想比率掩蔽(Ideal Ratio Mask,IRM)作为训练目标结合基于频谱映射的方法,在去混响阶段使用双向长短时记忆网络(Bi-directional Long Short-Term Memory,BLSTM)结合基于频谱映射的方法,最终得到增强语音的幅度谱信息,并且使用了一种新的目标函数,在模型训练过程中加入了纯净语音的相位来辅助增强语音幅度谱,这也将反过来提高相位估计的准确性,接下来使用迭代相位重建方法进行波形重建,最后对两阶段模型进行联合训练,优化目标函数。实验结果对比及语谱图分析表明,相比于传统的单阶段语音增强方法,本文提出的算法在同等条件下大幅提高了语音可懂度和语音质量,并对未知的噪声和混响表现出很强的鲁棒性。
其他文献
当今世界互联网行业发展迅速,已经成为全球经济发展的重要部分。光纤通信速率快,在互联网通信中占据重要地位。在光纤通信中,“最后一公里”的光接入网技术,负责将用户与网络中心进行连接,受到广泛研究。无源光网络(Passive Optical Network,PON)价格低廉,使用稳定,是目前最主要的光接入网技术。针对PON网络的点对多点的结构,在上行带宽中存在带宽复用的情况,需要对带宽进行分配,在避免传
随着大规模训练数据集的涌现以及计算机对数据运算处理能力的迅速提升,使用深度学习实现的目标跟踪算法取得了巨大的成功。孪生网络作为深度学习目标跟踪算法的一个重要实现方法,因其具有良好的跟踪性能以及较好的实时性而受到广泛关注。同时由于无人机的蓬勃发展,无人机平台下的目标跟踪算法研究具有极大的现实意义。但是将基于孪生网络的跟踪算法应用在无人机平台上跟踪效果却并不理想,这主要是由于无人机受机体结构、飞行高度
航空发动机叶片作为飞机发动机的关键精密零件,其表面完整性和型面精度对发动机的气流动力学性能、使用寿命、可靠性等方面有至关重要的影响。叶片属于典型薄壁件,具有易变形、弯扭度大的特征,剧烈的表面曲率变化使叶片在打磨过程中难以保证其表面质量,所以研究叶片高效高精度自动化打磨技术,对提升叶片生产效率和制造水平具有重要意义。目前,机器人打磨叶片逐渐代替人工打磨成为主流打磨技术。在机器人打磨叶片过程中,良好的
视觉同时定位与建图(v SLAM)是机器人进行自主定位和感知环境的关键技术。图像特征提取作为v SLAM前端中的重要环节,直接影响机器人的定位精度和建图精度。本文围绕图像特征提取问题,研究了手工特征和基于深度学习网络提取的特征,旨在提出鲁棒性强、匹配精度高的特征提取算法,以实现为v SLAM的后续环节提供正确匹配的特征点对。本文主要工作如下:针对ORB算法匹配精度不高的问题,提出了一种基于仿射变换
随着柔性电子设备的快速发展,柔性传感器向着高灵敏度、高检测限、高分辨率以及阵列化微结构方向发展。对于柔性压力传感器,现阶段主要是在改变结构、改变导电材料以及导电材料与基底材料的结合方式来提升传感器的稳定性、一致性以及灵敏度等性能指标。针对制造出方法简单、高灵敏度以及高一致性的柔性压力传感器仍需进一步探索。本文以提高柔性压力传感器的灵敏度、一致性以及传感器的检测限为目的,制备出基于Graphene(
脑功能超网络模型已经被广泛的应用于脑疾病诊断的应用研究当中。因为超网络模型能够表示多个脑区间的高阶关系,所以该方法在脑疾病的诊断领域已经表现出了极强的生命力。然而,现有的大多数科研人员主要集中于研究不同的脑功能超网络构建方法的优劣。均利用单一属性(如聚类系数)或简单的线性拼接来表征脑网络的拓扑。但是不同的拓扑属性代表着超网络中不同的拓扑关系,虽然聚类系数在脑疾病诊断系统中也表现出了很好的分类性能,
急性脑出血是死亡率最高的脑血管病,脑出血类型的早期诊断和扩大预测有助于降低患者死亡率。随着计算机技术的发展和CT成像水平的提升,医学影像数据呈现出爆发式的增长,传统依靠医生手工标记和提取特征的方法难以满足海量数据分析的需求,并且较长时间的工作将导致医生出现误诊和漏诊等情况。因此,亟需计算机辅助技术为医生减轻工作压力,提供客观的诊断依据。本文基于深度学习提出新的计算机辅助诊断和预测方法,利用深度学习
注意缺陷多动障碍(Attention Deficit Hyperactivity Disorder,ADHD)又被称为多动症,顾名思义,患有这种障碍的患者,会出现“多动”的症状。其中包括精力过于旺盛、注意力难以集中和性格冲动等现象,这种疾病在男孩中更为普遍,并且最近有实验证明其可能会持续到成年期。通常,这种障碍的诊断主要是依靠医生通过临床症状和国际上的诊断标准相对比来进行的,这种诊断方式是相对主观
皮带输送机是煤矿井下开采所需的十分重要的工具,其在安全生产中肩负着十分重大的责任。在生产过程中,由于恶劣的工作环境、经常出现混有棱角的矸石、细杆状物等尖锐物体等问题,皮带通常会伴随有划痕,划伤的出现,甚至会发生撕裂这样的严重破损,这些问题可能会威胁井下人身安全,还可能使煤矿造成一定的财产损失。为此,寻求准确并且实时的皮带破损检测的方法,是现在一个很有意义的课题。但是现存的检测方法,对于皮带破损图像
传统计算机经过几十年的发展演变,已经非常成熟,在很多领域已经表现出卓越的性能,被认为是人脑的拓展。然而传统计算机在很多领域中还远远达不到人脑的智力水平。人工神经网络以一种类似于人脑的方式处理信息,有望突破传统计算机遇到的困境,在很多领域表现出极大的潜力。人工神经网络主要包括前馈神经网络和递归神经网络,由于递归神经网络具有记忆衰落特性,擅长处理时间相关任务,因更贴近实际问题而被广泛研究。然而传统递归