论文部分内容阅读
人类能够听到的所有声音覆盖了20~20000Hz的频率范围。受到现阶段的音频通信系统网络传输速率和终端处理能力的限制,感知音频编码方法通常会根据实际应用场景限制重建信号的有效带宽,优先编码音频信号的低频成分,以提升音频通信系统的编码效率。随着移动通信和多媒体技术的快速发展,人们已经不满足于现有的宽带音频通信质量,并期望从音频通信系统中享受到更加明亮而富有表现力的高质量音频服务。为此,如何以最小的代价使现有宽带音频通信系统获得或接近超宽带音频的主观昕感成为了音频通信领域中亟待解决的问题。 作为一种有效的音频增强方法,频带扩展方法在不改变音频信源编码和网络传输的前提下,通过分析原始音频的时频特性,在接收端人为地恢复出编码端所截去的高频成分,达到增强重建音频听觉质量的目的。本文围绕音频信号盲目式频带扩展方法中音频特征提取、频谱包络估计和频谱细节扩展三点关键技术展开研究,并分别提出了多种音频频带扩展解决方案。最终,通过整合相关关键技术,进一步构建出一套完整的音频信号盲目式频带扩展方法,并应用于ITU-TG.722.1宽带音频编码器中,实现了宽带向超宽带音频信号的带宽扩展。本文主要研究工作和创新之处体现为如下几个方面: 一、音频频带扩展中的特征提取与分析 1.结合人耳听觉感知特性,本文提出了基于耳蜗滤波器倒谱参数的频谱包络估计方法,在传统倒谱参数提取过程中引入听觉变换模拟入耳耳蜗基底膜对音频信号的时频响应,并借助可变窗长的时间平滑技术控制各个频带下倒谱参数的时间分辨率。 2.本文将音频频谱的帧间动态特性引入到音频倒谱参数提取中,提出了基于时间平滑倒谱参数的频谱包络估计方法。该方法利用最小量控制递归平均和频谱加权方法在特征提取过程中抑制低频频谱中的暂态成分,改善了扩展后音频频谱包络的时间平滑性,有效地增强了频带扩展方法重建音频信号的听觉质量。 二、基于回声状态神经网络的音频频谱包络估计 1.本文提出了基于回声状态神经网络的频谱包络估计方法。该方法借助回声状态网络来模拟音频信号高低频特征间的映射关系,并基于网络模型中的时延递归结构利用连续的状态更新方程来近似描述音频特征的时域演变规律,进而提升了音频频谱包络估计的准确性。 2.考虑宽带音频特征的统计分布特性,本文进一步提出了多路集成回声状态网络方法和时间演进多路集成回声状态网络方法。多路集成回声状态网络方法将输入特征空间划分为多个区域,针对每一个区域利用一个特定的回声状态网络来模拟其内部特征与高频频谱包络间的关系;时间演进多路集成回声状态网络方法则进一步在储备池的递归反馈结构以外构建了另一条动态演进过程,利用隐马尔科夫模型来近似特征空间内不同区域之间的时序转移。两种改进方法均借助了局部逼近网络的多路集成方式来改善整体神经网络的泛化能力,并分别从静态和动态失真两个方面改善了高频频谱包络估计方法的扩展性能。 三、基于非线性预测的音频频谱细节扩展 1.本文提出了基于替代数据法的音频信号非线性分析方法。该方法假设音频信号源于某种线性高斯随机过程,并据此生成大量替代数据来模拟其线性相关性,最终根据假设检验方法对音频序列中是否包含非线性成分进行验证。实验测试表明,该方法能在纯净和含噪情况下准确地检测到音频信号中存在的固有非线性成分,为非线性分析预测方法应用于音频信号处理奠定了理论基础。 2.鉴于音频频谱成分中存在显著的非线性特性,本文首次将非线性动力学理论中的相空间重构和预测方法引入到音频频带扩展中,提出了基于最近邻映射的频谱细节扩展方法。该方法借助低频频谱相空间中最近邻相矢量的动力学演变结构实现对高频成分频谱细节的逐点预测,降低了扩展后音频频谱细节的预测误差。 3.本文提出了基于相似关联度神经网络的高频频谱细节扩展方法。该方法在重构相空间中借助前向神经网络参数化地构建了未知幅度谱参数与已知相矢量之间的非线性预测模型,并引入相似关联度来描述相矢量与神经元中心矢量间的几何相似程度,提升了整体预测模型的性能,其扩展后的音频主观质量更接近于原始超宽带音频质量。 四、音频频带扩展方法在实际宽带音频编码系统中的应用 综合时间平滑倒谱参数、时间演进多路集成回声状态网络以及基于相似关联度神经网络的非线性预测三种技术,本文构建了一套完整的宽带向超宽带音频盲目式频带扩展方法,并以ITU-T G.722.1宽带音频编码器作为测试平台,对实际解码后的宽带音频进行带宽扩展。测试结果表明,本文所提方法有效地恢复了原始音频的高频频谱成分,其主客观性能均优于参考的频带扩展方法,同时该方法提升了G.722.1编码器重建音频的听觉质量,其重建音频接近于G.722.1 Annex C超宽带编码器重建音频的主观质量。