基于听觉谱局域关联建模的语音分离方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：cutemaomao

【摘要】

：

从背景噪音中分离出目标语音信号是语音信号处理领域的一个重要问题。计算听觉场景分析是解决该问题的可行方案之一。在大部分语音分离系统中，由于语音信号的非平稳性，时域信号

【作者】

：

梁山

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2013年期

【关键词】

：

语音分离计算听觉场景分析邻域关联模型贝叶斯估计理想二值掩蔽理想浮值掩蔽

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

从背景噪音中分离出目标语音信号是语音信号处理领域的一个重要问题。计算听觉场景分析是解决该问题的可行方案之一。在大部分语音分离系统中，由于语音信号的非平稳性，时域信号首先被变换到二维时频表达。语音分离问题进一步可以转化为理想二值或者浮值掩蔽估计问题。近几年来，统计分类模型开始广泛应用于理想二值掩蔽估计。然而，相邻时频单元之间的关联信息还没有得到足够的重视。本文对该关联信息展开深入研究，并和原分离系统相融合以提高分离性能。主要工作及创新点如下:　　对理想二值掩蔽(Ideal Binary Mask, IBM)和理想浮值掩蔽(Ideal Ratio Mask，IRM)在信噪比意义下的近似性讨论。IBM和IRM是语音分离最常用的两个计算目标。由于计算目标的确立是设计一个复杂计算系统的关键问题，我们首先在均方误差及信噪比意义下分析和对比这两种掩蔽模型。根据帕斯瓦尔等式，我们推导出IBM和IRM的均方误差在能谱域的表达方式。在近似联合正交假设下，分析了IRM的近似均方误差。进一步，分析了这两种掩蔽策略在均方误差上的差异，并推导出这二者在信噪比增益指标上差异的近似上界，即101og102dB。实际分离任务中，该差异比该上界更小，一般小于1dB。　　基于融合局域关联模型贝叶斯方法的IBM估计。主要提出了一个基于时频分割的IBM自适应先验分布模型和基于局部噪音追踪的噪音先验分布模型。这两个模型和原贝叶斯分类器相融合。由于考虑了局部关联信息，使得后验分布函数是一个高维函数。最后，我们采用马尔科夫链-蒙特卡罗算法逼近IBM的期望。实验表明，该关联模型可以提高IBM估计的准确率和分离语音的信噪比。更进一步，有效抑制了原IBM估计中的离散点，使得IBM估计更加平滑。　　基于马尔科夫条件随机场语音听觉谱模型的IRM估计。由于IBM采用非是即否的掩蔽策略，IBM估计错误会直接导致听觉谱上相邻时频单元间语音能量的巨变。这和语音听觉谱连续性和慢变性相矛盾。我们提出了一个基于马尔科夫条件随机场的听觉谱先验模型。基于该先验模型，我们采用ICM(Iterated Conditional Modes)算法对二值掩蔽估计对应的听觉谱进行平滑。最后，我们采用浮值掩蔽策略恢复语音信号。实验表明，该平滑算法可以提高分离性能，尤其是更有效地抑制Artefacts噪声。　　提出了语音分离模型在信噪比意义下的最优浮值掩蔽(ORM)。最大化信噪比等价于最小化均方误差。同样，基于帕斯瓦尔等式，最小化均方误差转化为一个凸优化问题。在期望的意义下，ORM相对于IRM可以将均方误差降低一半，信噪比增益提高101og102dB。语音质量评估实验表明，ORM还可以显著提高感知质量。该项工作可以看作对计算目标分析的延伸。分析结果还表明，可以采用类似于IRM估计的方法估计ORM，即先估计二值掩蔽然后基于听觉谱局域关联模型泛化到浮值掩蔽。ORM估计是我们下一步工作的重点之一。

其他文献

基于图的紧致特征描述和快速图像搜索方法研究

随着科学技术的迅猛发展，计算机硬件、数字化设备和通信传输等信息技术日新月异，将人类社会带入到一个高度信息化的时代。而多媒体和网络技术的发展，导致了大量图像资源在网上爆

学位

图像结构数据挖掘紧致特征描述快速图像搜索哈希算法

高等学校财务评价系统

该文从建立符合中国高校财务管理的评价指标体系入手, 应用AHP法计算出各指标的权重.在评价方法上,该文首次将属性综合评价系统应用于高校财务评价领域,同时改善了属性综合评

学位

高等学校财务评价系统评价指标体系AHP法属性综合评价系统

连铸生产运行过程拉速优化方法研究

连铸生产过程是现代钢铁企业生产流程中的核心工序,其工况复杂,在连铸生产过程中受到钢水成分、钢水温度、运行工况、设备工况和浇注异常等多种不确定因素导致连铸生产过程具

学位

拉速优化动态优化差分方法遗传算法

人体上肢表面肌电信号采集与处理的研究

人体表面肌电信号是一种微弱的、复杂的生物医学信号,是由肌肉收缩而伴随产生的,而肌肉的收缩是由人体神经所控制,所以,对表面肌电信号的分析可以反映出神经控制肌肉运动变化

学位

50Hz陷波器小波多分辨分析特征提取BP神经网络

基于旋转二级倒立摆的分数阶滑模变结构控制系统的研究与实现

旋转二级倒立摆系统是一个典型的非线性、多变量、高阶次和不稳定的欠驱动系统,作为控制系统的被控对象,它可以用多种理论和方法来实现其稳定控制,如PID控制,状态反馈控制,非

学位

旋转二级倒立摆分数阶滑模变结构分数阶指数趋近律半实物仿真实验

管道内检测器实时跟踪定位系统设计与实现

海底油气管道作为海上油气田生产系统的重要组成部分,是连续地输送大量油气的理想运输方式。管道内检测技术是一种重要的海底管道故障诊断方法,利用带有信息采集、处理和存储

学位

管道内检测器实时跟踪精确定位压力波超低频电磁波

基于多Agent的能源调度方法研究

能源是人类发展和社会进步的重要物质基础,是关系国家安全和国民经济命脉的重要战略资源。但是,由于当今各种灾变性的气候变化,导致受灾地区能源供应不能满足能源需求；因此,常

学位

能源调度多Agent方法Agent联盟调度Agent

基于MCMC的VaR方法研究

该文创新性地提出一种新的方法-马尔科夫链蒙特卡洛(简称MCMC)方法来提高VaR的计算精度.该文首先讨论了市场风险的背景和管理过程,提出了市场风险测量的总体框架;然后从历史

学位

市场风险风险测量VaR蒙特卡洛模拟马尔科夫链蒙特卡洛方法

具有时滞及多丢包网络控制系统的量化控制与滤波

随着计算机网络技术、集成通信技术的发展成熟,使得基于网络环境的自动化控制系统成为了一种新的应用趋势。通过实时网络构成的闭环反馈控制系统称为网络控制系统(Networked

学位

网络控制系统通信时滞数据包丢失量化误差线性矩阵不等式

分数阶PID控制器的设计与实现

分数阶微积分(FC)的概念出现在300多年前,但是分数阶控制理论的研究却是控制学界一个较新的研究领域。迄今为止,分数阶微积分理论的研究已经取得了重大成果,这为分数阶微积分

学位

分数阶微积分分数阶PI~λD~μ控制器参数整定频域特性鲁棒性遗传算法

基于听觉谱局域关联建模的语音分离方法研究

其他学术论文