双耳语音增强算法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：bainiao528

【摘要】

：

语音增强算法在助听器，蓝牙耳机等听力设备和手机通讯等设备中一直有着很重要的应用价值。随着人工智能技术的发展，新一代的智能设备，如智能音箱，智能耳机等设备的兴起使得远场语

【作者】

：

方义

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2018年期

【关键词】

：

语音增强噪声抑制混响抑制时延差估计协方差矩阵估计

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

语音增强算法在助听器，蓝牙耳机等听力设备和手机通讯等设备中一直有着很重要的应用价值。随着人工智能技术的发展，新一代的智能设备，如智能音箱，智能耳机等设备的兴起使得远场语音交互技术再次得到广泛的关注，在远场语音交互中，一个关键的技术就是语音增强技术。远场相较于近场来说信噪比往往更低，这也意味着远场语音交互技术相较于近场的语音增强有着更多的挑战，这些挑战主要包括噪声的干扰，混响的干扰以及多说话人的干扰。而复杂的噪声环境下的语音增强技术无论是对于入耳的语音可懂度还是智能语音交互设备的识别率都有着重要的研究意义。　　为了更好的对噪声进行抑制，麦克风阵列成为一种主流的方案，而波束形成技术由于具有计算简单，目标语音失真小等特点，成为远场语音交互中的一种主流的技术方案。双麦克风阵列由于具有安装简单，成本低等特点，也成为一种主流的选择。随着Google Home的双麦克风智能音箱的推出，国内外针对双麦克风的语音增强算法展开了广泛的研究，但是由于麦克风数目较小，传统的固定波束形成算法在双麦克风上效果有限。随着深度学习的快速发展，基于深度神经网络的语音增强算法也得到广泛研究，而另一类基于无监督聚类与多通道波束形成结合的方法也取得了显著的效果。尽管近年来众多学者提出一系列的语音混响抑制，语音降噪和语音分离方案，但是在实际环境下算法的鲁棒性还有待提升。为此，本文分别利用传统的信号处理知识和机器学习，深度学习新方法针对实际环境下的双耳语音增强算法展开研究。主要研究内容和创新点包括:　　1.针对传统的优先效应模型的缺点，提出一种简单鲁棒的时延差估计算法，用于在噪声和混响环境下进行时延差估计。同时对混响抑制算法中的直达声与晚期混响的比值进行研究，最后利用估计的比值进行混响增益函数的计算。　　2.提出一种基于独立向量分析的目标语音协方差矩阵估计算法，现有的基于深度学习的Mask估计和基于聚类的Mask估计算法中对噪声有着不错的效果，但是却不能解决语音分离任务，为此本文在分别利用DNN估计Mask结合IVA用于干扰加噪声协方差矩阵的获取。最后与多通道维纳滤波器结合，得到最后的增益函数。　　3.针对欠定情况下的语音分离，首先针对目标方位已知的条件下提出一种双耳语音增强算法。随后针对噪声干扰下的多语音分离算法，提出一种降噪与分离系统联合的神经网络结构，该算法不需要声源数目和声源方位等先验信息，能够在噪声干扰的条件下完成多语音分离任务。

其他文献

试论烟草企业的物流精益化管理

随着经济时代来临,多元化趋势越发明显,地域之间壁垒越发薄弱,物流传输越发频繁.本文简要介绍物流精益化管理概念,并详细描述配送场所、配送部门、配送流程等烟草企业物流精

期刊

烟草企业物流精益化管理

种子特异表达ipt基因载体的构建及转化辣椒的研究

种子和果实的发育是植物生殖过程中重要的内容。细胞分裂素的活性和浓度与种子的生长和果实的发育有密切关系，一般来说，细胞分裂素能促进座果、影响种子果实中同化物的积累及胚

学位

ipt基因种子特异性启动子辣椒离体再生遗传转化

SIP和H.323互通研究

VoIP领域存在两大相互独立但功能一样的呼叫信令和控制标准:ITU组织的H.323协议和IETF的SIP协议。他们不能互相兼容,也不能彼此包含,只能互通。由于H.323协议提出较早及其成

学位

SIP协议H.323协议下一代网络软交换技术

高生存性弹性分组环研究与设计

近年来,城域网(MAN,Metropolitan Area Network)业务的主体正在发生深刻的变化,业务类型从单纯的时分复用(TDM,Time-division Multiplexing)业务向TDM、数据业务、多媒体业务

学位

城域网弹性分组环RPR网络帧结构仿真分析

构建财务派驻制深化业财融合体系

随着企业财务管理水平和手段的提升,财务工作已不再局限于本身,财务管理内容的宽度和深度需不断延展,以策略型和价值型财务为方向,以业财融合为目标,以财务派驻制为手段,从而

期刊

财务派驻制业财融合策略型和价值型财务转型

MPLS VPN组播性能的研究与仿真

MPLS以其特有的技术优势逐渐成为继 IP技术以来的下一代骨干网的核心技术,其主要应用MPLS VPN也成为了各大运营商争相发展的新型VPN业务。MPLS VPN可以提供 QoS保证、流量工

学位

组播性能OPNET仿真MPLSVPN技术性能参数

TTIB无线数传的基带预处理研究

TTIB(透明带内导音)技术是一种高效率的频谱技术,它可以抗短波移动电台系统上的多径衰落。与其它的抗干扰技术相比,TTIB能同时抑制叠加在信号上的随机相位和幅度调制,将TTIB

学位

透明带内导音无线数传基带预处理仿真分析接口电路模块化设计

钢琴自动记谱技术研究

自动音乐记谱是指利用计算机技术将一段音乐信号转化为乐谱等符号表达形式的过程，现已在音乐辅助教学、即兴音乐创作等方面广泛应用。由于多音音乐中存在严重的频谱重叠现象，实

学位

钢琴自动记谱音符识别音乐模型音符确认复数卷积神经网络

TD-SCDMA移动通信系统中的分组业务调度算法

大量的上下行不对称分组业务是第三代移动通信的重要特色之一,如何在上下行的每个方向保证业务实时需要的带宽、时延和质量,这对无线资源分配的自适应性和灵活性提出了更高的

学位

第三代移动通信系统TD-SCDMA分组调度频谱利用率资源分配

重组人Smac及Smac-PTD的制备与初步功能分析

Smac(secondmitochondrialactivator0fcaspase，即caspase的第二个线粒体激活因子)也被称为DIABLO(directIAPbindingproteinwithlowPI，即低等电点的IAP直接结合蛋白)，全长239个氨

学位

蛋白转导域基因克隆原核表达蛋白纯化

双耳语音增强算法研究

其他学术论文