基于能量占比的语音音乐混合音频精细分类方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wwk504
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅猛发展和多媒体应用的快速增加,音视频、图像等多媒体数据已经成为信息技术中主要的媒体形式。其中,音频信息是重要的多媒体数据。音频分类也成为音频数据处理时最常用的预处理技术。但是现有的音频分类方法多是将音频分类为某一单一类别,而语音音乐混合类数据是互联网中常见的音频数据,若仅标记为混合类,不够精细。故本文中提出对语音音乐混合类音频(以下简称混合音频)数据进行更加精细的标注,通过借鉴音频分类分割等方法,研究估计混合音频中语音和音乐能量占比的方法。本文针对混合音频的语音成分能量占比估计问题,分析了语音音乐在结构上的差异、研究了区分性特征提取方法、语音音乐分类方法、能量估计方法等。论文的主要内容如下:(1)基于LSTM的能量占比多分类方法将混合音频中的语音成分能量占比估计问题,转化为能量占比的分类问题,将分类器得到的结果作为混合音频中语音成分的能量占比。选取音频分类中常见的音频基本特征,对3s长的混合音频构建LSTM分类器,作为本文的基线系统。评价方法为平均误差。(2)基于语音短时停顿的能量占比估计方法利用语音中往往含有短时停顿,从而在混合音频中会出现无语音的纯音乐段这一特点估算语音成分的能量占比。该方法首先训练一个CNN二分类器,用来检测混合音频中的纯音乐段,然后通过音乐能量平稳的特点估计音乐成分的能量,计算语音成分能量占比数值。实验结果表明,该方法具有较好的效果。(3)基于和谐度特征组的能量占比分类方法针对在语音中没有停顿或者太短以至于检测不到的问题,本文提出了一种不依赖语音停顿的分类方法。该算法采用了和谐度和基频特征,对和谐度进行改进并构建了基于节拍分段的和谐度统计特征,使用CNN-LSTM网络进行分类,取得了很好的分类效果。
其他文献
我们知道,默认安装的Windows 7,系统文件夹通常都存放在系统盘当中,一旦遭遇系统崩溃,常常会影响到宝贵的个人数据,通过360安全卫士自带的C盘搬家功能,将重要的个人资料搬到
高速、宽带、紧凑的光调制器是十分重要的光通信系统器件,石墨烯具备的费米能级可调、超高载流子迁移率以及超高热导率等特性,使其与光波导结合的调制器满足宽带宽、超快调制
虚拟按键及状态栏的出现虽一定程度上提升了安卓设备互动体验,但很长一段时间以来各大安卓论坛上都有很多玩家反映状态栏不美观,占屏幕空间,影响视觉等问题,解决方法也是多种多样,今天就让笔者来为大家分享几个隐藏状态栏的方法。  最重要的前期准备当然是拥有一台已经Root过的安卓平板,具体root方式请自行参考所拥有机型的详细root教程,本文就不再对这一问题赘述了。本次笔者选用原道N70双擎S作为测试机器
随着人工智能技术的快速发展及其对于汽车行业的快速渗透,全自动无人驾驶技术逐渐由概念变为现实。由此带来的人车交互关系的变革正在得到设计界的广泛关注,一方面为了匹配这种全新的人机关系,车载人机交互界面也随之发生着改变;另一方面,人车关系的变革更引入了全新的人车交互方式,更加自然的人车交互成为了广大设计者研究的热点。当前,全自动无人驾驶汽车普及应用的最大挑战是接受度较低,大众对其安全性、可靠性的信任度不
在对Ce:BaTiO3晶体进行双光束干涉光折变光栅暗衰减特性的实验研究中,发现了暗条件下光折变光栅归一化衍射效率长时间上升的异常现象:在e光偏振、大入射角度产生光折变光栅的实
目的:探究集束化护理干预对ICU重型颅脑损伤机械通气患者呼吸机相关性肺炎的疗效.方法:以我院患者为例展开研究,患者选择自我院ICU重症颅脑损伤机械通气患者,其选取时间控制
太阳能电池是利用太阳光生产电能的一种器件。近年来,随着太阳能技术的快速发展,工业生产规模不断扩大,太阳能电池产业得到了飞速的发展。太阳能电池的制造成本由于薄膜太阳