论文部分内容阅读
随着科技的飞速发展,越来越多的图像、视频、音频等多媒体数据资料进入人们的生活,如何处理这些多媒体数据信息以方便人们使用,是信息处理领域的研究重点。音频作为一种主要的多媒体信息形式,成为信息处理领域的重要研究对象。音频分类能为音视频的检索和处理,如广播、新闻、网络的检索,语音识别,数据管理等提供有用的辅助手段。对于海量的音频信息,迫切需要一种快速有效的音频分类算法对它们进行分类和管理。
音频数据是一种非语义符号表示和非结构化的二进制流,缺乏语义内容的描述和结构化的组织,给音频信息的分析和处理工作带来了很大的困难。基于内容的音频分类算法,通过分析音频中的结构化信息和语义内容来提取特征,对不同类型的音频数据赋以不同的语义,使具有相同语义的音频在听觉上保持相似,并选用有效的分类器来区分不同类型的音频。因此,提取能够表征音频内容的特征和选择合适的分类器,成为音频分类算法研究的重点。本文主要针对音频特征和分类器的影响,从理论和实验角度深入研究了基于内容的音频分类算法。
首先,对音频文件进行了语义内容分析和结构分析,明确了研究的目标。在此基础上,对音频文件进行预处理,提取了基于音频帧层次和段层次的特征。针对纯语音/带音乐伴奏语音/无伴奏歌声/带音乐伴奏歌声的分类,提取了声学特征中的频谱质心、频谱延伸、高过零率比率、能量熵、低能量帧比率、频谱流量、频谱滚降,感知特征Mel频率倒谱系数,针对电鸣乐器/弦鸣乐器/气鸣乐器/膜鸣乐器/体鸣乐器的分类,提取了声学特征中的频谱质心、频谱延伸、能量熵、频谱滚降、子带基音频率分布、第一共振峰频率、第二共振峰频率,感知特征Mel频率倒谱系数。
其次,研究了音频特征集的构造。为消除特征中不利于分类的冗余信息,采用TVN(Talker Variability Normalization)算法进行特征加权,使得特征空间中的类间距离增大,类内距离减小,提高了特征的可分性;随后利用顺序后退法进行特征选择,以支持向量机的分类准确率作为评价函数,进一步提高了特征分类的有效性。
再次,探究了粒子群算法对支持向量机的惩罚系数和径向基核参数的寻优。粒子群算法不仅提高了寻优效率、加快了搜索速度,而且降低了对参数初始值选取的依赖程度,提高了支持向量机的分类性能。
最后,利用训练过程确定的特征加权系数、最优特征,在测试过程中提取最优特征并对其加权,采用训练过程确定的最优参数下的支持向量机分类器,尝试研究了纯语音/带音乐伴奏语音/无伴奏歌声/带音乐伴奏歌声的分类以及电鸣乐器/弦鸣乐器/气鸣乐器/膜鸣乐器/体鸣乐器的分类,实验结果证明了本文算法的有效性。
本课题的研究有助于音频分类技术的进步,对其它音频处理领域以及相关模式识别领域算法的研究和改进有一定的参考价值和借鉴作用。