论文部分内容阅读
音频数据作为多媒体信息的重要组成部分,为人们的听觉感知提供了不可或缺的内容,因而音频信号处理在多媒体信息研究中占有非常重要的地位。本文概括了国内外在这方面的研究现状以及当前的研究主流,讨论了压缩域中音频处理的研究目的和意义,提出了一些新的研究方法,并对目前存在的问题进行了分析。
本文的主要研究内容和创新点包括以下几个方面:
研究压缩域中音频特征的提取方法,提出了在不同环境噪声低信噪比条件下基于概率密度比(Compressed Probability-density Ratio,CPR)的压缩域高鲁棒语音/音乐分割算法,该方法在准确率、抗噪性和综合性能方面均有显著优势;建立了基于MDCT(Modified Discrete Cosine Transform)系数的压缩域音频听觉谱模型,并且通过特征提取、分类等实验方法测试该模型的有效性。
在信息熵理论背景下给出了基于异质性准则的连续属性离散化方法,属性离散化的质量在算法的复杂度和离散化的精度上存在着不可兼顾的矛盾,该算法旨在保证离散化精度的同时能够使算法尽可能的简化。
文中提出了基于微粒群优化( Particle Swarm Optimize,PSO)和粗糙集理论的高效特征选择算法。利用微粒群算法产生属性排列,同时基于属性重要度的约简算法对属性排列进行评价,从而获取高效表征音频且计算复杂度相对较低的最优特征或最优特征组合,进一步提高分类检索精度和速度。
文章针对压缩域音频信号进行了支持向量机( Support Vector Machine, SVM)分类方法的研究,从实际用途的角度出发分析了两种分类算法:基于改进型的SVM二分类算法和基于SVM的二叉树多分类算法,给出了基于交叉验证和网格筛选法进行参数选择的改进型SVM分类算法,同时建立音频信息的数据库系统,实现音频的快速检索。