基于深度学习的麦克风阵列声源定位算法研究

来源 :深圳大学 | 被引量 : 2次 | 上传用户：yoclin

【摘要】

：

随着人工智能技术进入实用化阶段,语音成为很多应用场景的入口,为了让设备能更好地参与语音交互,需要利用麦克风阵列对声源进行定位。实际环境中的噪声和混响会严重影响声源

【作者】

：

丁俊豪

【出处】

：

深圳大学

【发表日期】

：

2019年01期

【关键词】

：

麦克风阵列声源定位深度学习神经网络 Image算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着人工智能技术进入实用化阶段,语音成为很多应用场景的入口,为了让设备能更好地参与语音交互,需要利用麦克风阵列对声源进行定位。实际环境中的噪声和混响会严重影响声源定位系统的性能,传统方法通过增加麦克风数量、加大阵列尺寸、提高采样频率等改善硬件条件的方式来提升系统的抗噪和抗混响能力,这种做法既增加了系统的复杂度,又提高了设备的成本。在智能语音交互应用中,出于对产品成本和体积的考虑,麦克风数量和阵列尺寸受到很大的限制,在噪声和混响的干扰下,传统声源定位算法的性能会急剧下降。本文提出了一种基于深度学习的声源定位算法,通过模型训练实现声源方位的分类,对于改善语音交互产品的声源定位性能具有实际应用价值。本文首先介绍了三种传统声源定位算法:基于时延估计的声源定位、基于可控波束形成的声源定位、基于高分辨率谱估计的声源定位。根据各种算法的特点和局限性,选择时延估计方法用于深度学习特征提取。其次,论文阐述了深度学习的相关理论和实现算法,并分析了实际环境中声源的空间分布与麦克风阵列信号之间的关系。在理论分析的基础上,从声源方位分类的角度,提出了基于深度学习的声源定位算法。再次,本文引入了一种基于反射对称性原理的Image算法用于模拟室内特定声学通道的房间冲激响应,并在全空间随机生成大量麦克风阵列信号训练数据。最后,采用TensorFlow搭建全连接神经网络模型,分别选择四种不同的时域特征,对深度学习分类模型进行训练,利用训练好的分类器对麦克风阵列信号进行分类,从而确定声源的方位。为了评估深度学习方法的性能,本文以传统时延估计算法为参照,在49种环境条件下进行对比实验。实验结果表明:在综合环境条件下,深度学习方法在双麦克风小型阵列上的定位准确率相对传统方法有20%-38%的提升,从而验证了本文提出的基于深度学习的声源定位方法可以获得更高的定位准确率和环境鲁棒性。

其他文献

生态翻译学视角下《习近平谈治国理政》（第二卷）中国特色词的英译研究

随着中国对外交往的日益频繁,政治文献在中国走向世界舞台的过程中起着至关重要的作用。《习近平谈治国理政》(第二卷)收录了习近平2014~2017年期间的重要讲话、谈话、演讲和

学位

《习近平谈治国理政》中国特色词生态翻译三维转换

浅析地图教学时效性的方法

摘要:地图是地理教学的第二语言,是学习地理的重要工具,被称为学习地理的“眼睛”。在初中地理教学中,如何重视地图的教学,使学生建立正确的空间观念,让学生掌握观察地理事物的基本方法,培养学生对地理事物的理解、想象、分析等能力和解决地理问题的能力,历来就是一个重点和难点。如何在教学中教会学生学会识图和运用地图、如何在教学中提高学生学习地图的时效性,培养学生运用地图及各种图表的能力进行探讨。　　关键词:地

期刊

地图教学时效性方法培养图表Map teaching Effectiveness Method Raise Graph

标准算子代数的广义导子和局部广义导子

设Ａ为Ｂａｎａｃｈ空间中一标准算子代数，证明了Ａ到Ｂ（Ｘ）的每一广义导子都是广义内导子，进而，如果线性映射δ：Ｄ→Ｂ（Ｘ）满足δ（Ｐ）＝δ（Ｐ）Ｐ＋Ｐδ（Ｐ）－Ｐδ（Ｉ）Ｐ，ˇＰ∈Ａ为幂等元，则δ为广义导子，特别地，Ａ的每一局广义导子都是广义导子。

期刊

标准算子代数广义导子局部广义导子算子代数standard operator algebra generalized derivation local g

基于深度学习的麦克风阵列声源定位算法研究

其他学术论文