论文部分内容阅读
在现今,人工智能的发展越来越快,声音识别作为其中的一种技术自然也是逐渐成熟。但在复杂场景中会存在噪声干扰而导致识别难度加大,而在这些场景(例如城市)中的声音一般包含着许多信息,如何对于这部分声音进行识别便成一个需要被克服的问题。在复杂场景下,面对形形色色的声音更是对传统声音识别模型的一个极大的挑战。本文采用了google的声学数据集中存在的孩童玩闹声、狗吠声、海浪声、鸣笛声、链锯声以及电钻声进行了识别分类,本文主要采用模板匹配法,以预处理、特征提取、模型分类识别的步骤进行声音识别,其中预处理方面将通信技术中的能量检测技术引入声音识别领域;特征提取方面提出了一种基于小波包分解的MFCC特征提取方法;模型分类方面改良了卷积神经网络模型针对一维的声音信号的特征图输入方法,减少计算时间。本文主要做了以下工作:(1)在预处理方面,以声音信号中的信号特性,对比信号检测中的单节点频谱感知算法中的单节点频谱感知技术、匹配滤波检测以及能量检测,包括并不限于三者之间的难易程度、简单程度以及优缺点,最终采用能量检测来进行预处理。能量检测预处理方法将声音当成信号处理,首先将目标信号输入滤波器中,对通过滤波器的目标型号进行模平方以及累加操作得到输入信号在本段时间内所产生的能量,接着计算此能量与噪声方差之比,将其与设置好的门限值进行对比以及筛选,最终得到筛选后存在有用信号的目标信号。(2)采用了以Mel倒谱系数结合小波包分解的特征提取方法。传统的Mel倒谱系数模拟人的听觉系统,在常规的声学识别中发挥着很好的作用。但是对于一些特殊的场景,它的稳定性、抗噪性差强人意,因此在本文中将其与小波包变换和代替传统MFCC中的傅里叶变换,首先对目标信号进行分帧、加窗,接着采用结合Mel尺度的小波包变换分解,经过归一化处理、对数运算和离散余弦变换之后得到目标声音信号的特征参数,借此能够既模仿人耳的识别能力,又对于复杂环境的情况下存在着一定的抗噪性。(3)由于声音信号属于一维信号,因此优化卷积神经网络,在结构上进行改变、调整,并将其与传统的声音识别模型进行比较以及探究不同采样方法在复杂环境下对于识别率会有什么变化。实验结果表明:本文提出的模型方法比起传统的声音识别模型,其识别率会更加高;在噪声环境下最大值采样相较于均值采样能够保留更多的目标信号特征,从而取得较好的识别结果。