论文部分内容阅读
在音频压缩编码领域中,MPEG标准是应用最为广泛的标准之一,特别是其中的第三层编码方案(即MP3音频格式)在互联网时代得到了最大规模的普及.MP3编码方案建立在心理声学模型的基础上,运用ASPEC算法极大的去除了音频信号中的冗余信息,在很高的压缩比下仍然能得到令人满意的结果.
MP3编码流程中的时频变换模块原先采用的是PQMF混合滤波器组与固定窗口的MDCT变换,本文在详尽讨论MP3编码流程的基础上提出并实现了一种新的编码方案,即采用自适应局部余弦变换来构成新的时频变换模块.局部余弦变换(LocalCosineTransform)是一种在上世纪八十年代末提出的时频局部化算子,它可以做到先将信号在时域上光滑地分割成区间信号,然后在区间内部进行频率分解.不同于常见的加窗Fourier变换,局部余弦变换在时域上的区间分划完全是任意的,这使得根据信号内在结构对其进行时域分割,然后在这种分割的基础上进行时频变换成为可能.上世纪九十年代初,人们提出可以对信号进行自适应的时域分割然后进行进一步频域分解,这被称为自适应局部余弦变换(AdaptedLocalCosineTransform).本文对已有的自适应区间划分算法进行了改进,使之能够更适应音频编码的要求,进而在此基础上将其应用于音频压缩流程之中,实现了新的音频压缩编码方案.同经典的MP3编码方案相比,新的编码方案一方面做到了能够根据信号内在时域结构来进行窗口划分和压缩,从而得到很好的压缩效果,另一方面在编码后的码流中可以携带根据自适应区间分析而得到的关于信号特征的信息,这些信息可以为进一步实现对音频文件的自动识别、分类和检索提供有效的帮助.这些优势(特别是第二方面的优势)会在互联网大规模传播音频文件的时代得到很好地发挥和应用.