音频信号的盲目式频带扩展关键技术研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:zf524979
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类能够听到的所有声音覆盖了20~20000Hz的频率范围。受到现阶段的音频通信系统网络传输速率和终端处理能力的限制,感知音频编码方法通常会根据实际应用场景限制重建信号的有效带宽,优先编码音频信号的低频成分,以提升音频通信系统的编码效率。随着移动通信和多媒体技术的快速发展,人们已经不满足于现有的宽带音频通信质量,并期望从音频通信系统中享受到更加明亮而富有表现力的高质量音频服务。为此,如何以最小的代价使现有宽带音频通信系统获得或接近超宽带音频的主观昕感成为了音频通信领域中亟待解决的问题。  作为一种有效的音频增强方法,频带扩展方法在不改变音频信源编码和网络传输的前提下,通过分析原始音频的时频特性,在接收端人为地恢复出编码端所截去的高频成分,达到增强重建音频听觉质量的目的。本文围绕音频信号盲目式频带扩展方法中音频特征提取、频谱包络估计和频谱细节扩展三点关键技术展开研究,并分别提出了多种音频频带扩展解决方案。最终,通过整合相关关键技术,进一步构建出一套完整的音频信号盲目式频带扩展方法,并应用于ITU-TG.722.1宽带音频编码器中,实现了宽带向超宽带音频信号的带宽扩展。本文主要研究工作和创新之处体现为如下几个方面:  一、音频频带扩展中的特征提取与分析  1.结合人耳听觉感知特性,本文提出了基于耳蜗滤波器倒谱参数的频谱包络估计方法,在传统倒谱参数提取过程中引入听觉变换模拟入耳耳蜗基底膜对音频信号的时频响应,并借助可变窗长的时间平滑技术控制各个频带下倒谱参数的时间分辨率。  2.本文将音频频谱的帧间动态特性引入到音频倒谱参数提取中,提出了基于时间平滑倒谱参数的频谱包络估计方法。该方法利用最小量控制递归平均和频谱加权方法在特征提取过程中抑制低频频谱中的暂态成分,改善了扩展后音频频谱包络的时间平滑性,有效地增强了频带扩展方法重建音频信号的听觉质量。  二、基于回声状态神经网络的音频频谱包络估计  1.本文提出了基于回声状态神经网络的频谱包络估计方法。该方法借助回声状态网络来模拟音频信号高低频特征间的映射关系,并基于网络模型中的时延递归结构利用连续的状态更新方程来近似描述音频特征的时域演变规律,进而提升了音频频谱包络估计的准确性。  2.考虑宽带音频特征的统计分布特性,本文进一步提出了多路集成回声状态网络方法和时间演进多路集成回声状态网络方法。多路集成回声状态网络方法将输入特征空间划分为多个区域,针对每一个区域利用一个特定的回声状态网络来模拟其内部特征与高频频谱包络间的关系;时间演进多路集成回声状态网络方法则进一步在储备池的递归反馈结构以外构建了另一条动态演进过程,利用隐马尔科夫模型来近似特征空间内不同区域之间的时序转移。两种改进方法均借助了局部逼近网络的多路集成方式来改善整体神经网络的泛化能力,并分别从静态和动态失真两个方面改善了高频频谱包络估计方法的扩展性能。  三、基于非线性预测的音频频谱细节扩展  1.本文提出了基于替代数据法的音频信号非线性分析方法。该方法假设音频信号源于某种线性高斯随机过程,并据此生成大量替代数据来模拟其线性相关性,最终根据假设检验方法对音频序列中是否包含非线性成分进行验证。实验测试表明,该方法能在纯净和含噪情况下准确地检测到音频信号中存在的固有非线性成分,为非线性分析预测方法应用于音频信号处理奠定了理论基础。  2.鉴于音频频谱成分中存在显著的非线性特性,本文首次将非线性动力学理论中的相空间重构和预测方法引入到音频频带扩展中,提出了基于最近邻映射的频谱细节扩展方法。该方法借助低频频谱相空间中最近邻相矢量的动力学演变结构实现对高频成分频谱细节的逐点预测,降低了扩展后音频频谱细节的预测误差。  3.本文提出了基于相似关联度神经网络的高频频谱细节扩展方法。该方法在重构相空间中借助前向神经网络参数化地构建了未知幅度谱参数与已知相矢量之间的非线性预测模型,并引入相似关联度来描述相矢量与神经元中心矢量间的几何相似程度,提升了整体预测模型的性能,其扩展后的音频主观质量更接近于原始超宽带音频质量。  四、音频频带扩展方法在实际宽带音频编码系统中的应用  综合时间平滑倒谱参数、时间演进多路集成回声状态网络以及基于相似关联度神经网络的非线性预测三种技术,本文构建了一套完整的宽带向超宽带音频盲目式频带扩展方法,并以ITU-T G.722.1宽带音频编码器作为测试平台,对实际解码后的宽带音频进行带宽扩展。测试结果表明,本文所提方法有效地恢复了原始音频的高频频谱成分,其主客观性能均优于参考的频带扩展方法,同时该方法提升了G.722.1编码器重建音频的听觉质量,其重建音频接近于G.722.1 Annex C超宽带编码器重建音频的主观质量。
其他文献
γ-氨基丁酸(γ-aminobutyrie acid,GABA)是晡乳动物大脑中主要的抑制性神经递质。GABA转运蛋白(GATs)位于细胞质膜,是一种调节GABA跨膜运输的重要分子。通过重摄取已释放的GAB
LG—300A是我校自主研制并生产的小型数字程控交换机,具有交换、汇接、调度等功能。它采用了数字中继和时分交换技术,实现了传输和交换的数字化,广泛用于机关、企业、工矿等内部
原产于澳大利亚的桉树(Eucalyptus)由于速生和适应多种环境的特性而成为世界著名的造林树种。我国自上世纪五十年代起广泛引种,引种面积已达150万hm2以上。有关外来树种桉树
穿戴式智能设备的出现,为人们的生活带来了极大的方便。其原理就是将手机终端和WiFi或蓝牙的技术进行融合,而WiFi或蓝牙都是工作在2.4GHz的频率段上,这将使工作在2.4GHz频率段上
本研究以浏阳黑山羊为试验动物,旨在探讨微生物制剂与淀粉结构对瘤胃发酵及其胃肠道甲烷生成的影响,本研究主要分为三大部分。第一部分,选取外源纤维素酶(来源于Neocallimastix p
在地表水资源比较匮乏的半干旱地区,地下水是区域可利用水资源的重要组成部分,地下水位高低和水质好坏都直接或间接的影响地表景观要素的变化。科尔沁沙地过去地下水资源相对丰
水稻是重要的粮食作物,为全球一半以上的人口提供主要粮食来源。干旱、高盐、低温和高温等非生物逆境胁迫严重影响水稻的生长发育,对水稻产量造成巨大损失。为保证水稻的稳产、
锁相环时钟发生器以其低造价、高性能、易于集成的优点成为工业上设计的主流.该文的工作内容是CMOS锁相环时钟发生器的设计和实现.首先,该文介绍了锁相技术的由来、特性、发
该文阐述了如何利用GSM移动通信网的GPRS通用分组无线网格构建无线数据运营中心的具体方案,并确定了依托无线数据运营中心开发移动数据采集终端设备、多用户、多功能信息平台
哺乳动物能够借助胃肠道内的营养物质感应受体或载体对其胃肠道管腔内的营养成分进行感应,这一能力也被称作“胃肠道营养物质化学感应”,该感应机制对消化过程中诸如营养物质吸