基于张量分解的音频信号分类研究

来源 :内蒙古科技大学 | 被引量 : 0次 | 上传用户:kick3160288
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着多媒体和互联网技术的不断进步与发展,音频信号作为多媒体信号的重要组成成分,对其进行信息处理与挖掘受到越来越多研究者的青睐,而处理这些音频信号的方法也多种多样。网络的普及使我们在大量音频信息中选取有用信息时,可以将那些无用的以及影响研究者完成音频分类的信息革除,这样不仅节省了人力资源,还可以更加有效便捷的提取有用信息而屏蔽多余的信息。因此在这个信息杂糅的时代,音频分类技术大有可为。在人工智能及大数据分析的背景下,图像音频等领域展现出了较为光明的前景,而音频场景分类逐渐成为广大研究者们所钟爱的方向。音频场景分类是通过音频标签信息进行分析。给出音频场景,其中包含各种各样的音频信号,相较于之前的单一的摄像头进行场景分类,利用音频技术不需要考虑大雾大雨这样恶劣的天气因素,且利用音频技术采集的过程中也不会存在视频监控那样的死角问题。音频分类只需要一个采集声音的设备和一个接收的设备,视频监控如果能结合音频技术使得我们在今后的生产生活有一定的积极影响,使得我们会在场景分类这一领域有更加广阔的发展空间。本课题面对一系列的分类问题,利用张量分析构建音频张量,之后再进行张量分解,这样就能得到鲁棒性较强的声音特征,进而可以提高分类的准确率。张量分析是指用张量形式来表示信号,用张量的相关运算对信号进行分析处理的一种技术。相比传统的矢量和矩阵分析的方法,张量分析能够充分利用各因素之间的相关性,从而在高阶空间对音频信号进行整体分析和操作。本课题研究过程中利用三阶张量作为音频特征,最后用支持向量机作为分类器完成音频场景的分类。分类场景包括汽车喇叭、发动机空转声、枪击声、儿童游戏声、狗叫、街头音乐等10类。整个实验的数据量为8732个音频片段。最终获得分类的正确率为91.3%,单类场景分类的正确率都达到了80%以上,这说明本文所研究的音频分类方法是合适的,为之后的深入研究奠定了基础。
其他文献
目前,有机无机杂化甲胺碘化铅钙钛矿(CH3NH3PbI3)因有与太阳光谱匹配的直接带隙(1.5 eV)成为性能优良的光电材料。但基于钙钛矿平面化结构的光电探测器往往具有较大的电滞、较慢
GaN基高电子迁移率晶体管具有耐高压、耐高温、高功率密度、工作频率高等特点,是具有前景的电力电子器件之一。自GaN HEMTs诞生以来,经过近30年的发展,出现了商用化产品并成
随着人类海洋活动的日益频繁,人们对海上宽带通信的需求也越来越大。当前海上无线通信系统存在带宽窄、速率低、成本高等问题,无法满足现代海上互联网通信业务的需求,人们迫
近年来,资产价格跳跃现象已成为金融研究的热点,本文通过方差互换检验方法,对沪深股市300只成分股15年间的股票交易数据进行分析,根据公司的股票市值、账面市值比、动量及非
合成是引入和推进功能材料或设备不同特性的常用方法。随后,有各种技术,结合两种或多种材料,形成一个统一的多功能/复合系统。虽然混合有机金属卤化物环丙基(OMHPs)主要被探索
命名实体识别是藏文信息处理的基础性和关键性任务之一,藏文命名实体识别就是从藏语文本中发现并分类命名实体,其效果会影响后续的藏文信息抽取和信息检索等任务的性能。当前
平潭岛是一个资源性缺水的海岛地区,水资源问题已严重制约了平潭综合实验区的发展,水资源的开发利用成为解决岛内水资源短缺的重要途径。在充分利用地表水资源的基础上,如何
世界经济在保持超高速发展的同时,各类能源短缺以及环境污染问题也变得愈发严重。尽管各国都致力于清洁可再生能源的研究,但是石油燃料的生产和消费依旧占主导地位,且持续增
无线传感网通常由具有有限资源的传感器节点组成,并运行在无人区域或恶劣环境中,这使它比传统网络更容易受到安全威胁。近年来,各种基于机器学习的入侵检测技术在无线传感网
调频信号作为一种典型的非平稳信号,广泛应用于声纳、雷达、激光等研究领域。调频信号的稀疏表示是众多领域的共性基础问题,对调频信号的采样、检测、压缩和滤波具有重要的作