论文部分内容阅读
随着多媒体和互联网技术的不断进步与发展,音频信号作为多媒体信号的重要组成成分,对其进行信息处理与挖掘受到越来越多研究者的青睐,而处理这些音频信号的方法也多种多样。网络的普及使我们在大量音频信息中选取有用信息时,可以将那些无用的以及影响研究者完成音频分类的信息革除,这样不仅节省了人力资源,还可以更加有效便捷的提取有用信息而屏蔽多余的信息。因此在这个信息杂糅的时代,音频分类技术大有可为。在人工智能及大数据分析的背景下,图像音频等领域展现出了较为光明的前景,而音频场景分类逐渐成为广大研究者们所钟爱的方向。音频场景分类是通过音频标签信息进行分析。给出音频场景,其中包含各种各样的音频信号,相较于之前的单一的摄像头进行场景分类,利用音频技术不需要考虑大雾大雨这样恶劣的天气因素,且利用音频技术采集的过程中也不会存在视频监控那样的死角问题。音频分类只需要一个采集声音的设备和一个接收的设备,视频监控如果能结合音频技术使得我们在今后的生产生活有一定的积极影响,使得我们会在场景分类这一领域有更加广阔的发展空间。本课题面对一系列的分类问题,利用张量分析构建音频张量,之后再进行张量分解,这样就能得到鲁棒性较强的声音特征,进而可以提高分类的准确率。张量分析是指用张量形式来表示信号,用张量的相关运算对信号进行分析处理的一种技术。相比传统的矢量和矩阵分析的方法,张量分析能够充分利用各因素之间的相关性,从而在高阶空间对音频信号进行整体分析和操作。本课题研究过程中利用三阶张量作为音频特征,最后用支持向量机作为分类器完成音频场景的分类。分类场景包括汽车喇叭、发动机空转声、枪击声、儿童游戏声、狗叫、街头音乐等10类。整个实验的数据量为8732个音频片段。最终获得分类的正确率为91.3%,单类场景分类的正确率都达到了80%以上,这说明本文所研究的音频分类方法是合适的,为之后的深入研究奠定了基础。