论文部分内容阅读
本文旨在探索在低信噪比条件下单声道的语音增强问题,这项工作有相当的难度但却有着极其重要的实际意义。首先回顾一些主流的语音增强方法,重点介绍了频谱减法以及各种改进方法的优缺点。人耳在噪声中提取语音信息的能力是目前各种除噪方法都不能达到的,于是从研究人耳的生理结构特点出发,提出了一套完整的听觉模型来解决语音增强问题。根据人耳的生理结构主要分为内耳(包括耳蜗)和听觉通路两大部分的特点,听觉模型也分为听觉前端系统的模拟和听觉中枢的模拟两大功能模块。
在声音从外耳传递到内耳耳蜗的过程中,人耳主要实现了声音从机械波向神经脉冲的转化过程。这里面包括了重要的基底膜频率分解特征和掩蔽效应。小波变换在时频分析上的优点已经被很好的证明,采用多种小波的混合小波包来很好的模拟基底膜特征,并运用帧同步蝶性算法解决了Mallat算法所需数据过大以及运算时间过长的问题,最后利用掩蔽效应对语音进行了动态阈值的除噪。
针对在听觉通路的神经脉冲信号传输和处理过程中,听觉皮层对语音特征的拓扑映射是相当重要的,提出了用K0honen网络来模拟听觉皮层。讨论提取什么样的语音矢量来表述语音特征以及网络训练的问题。针对噪声环境对语音映射的影响,提出了二次有监督的学习。最终,为了改善除噪语音的听觉效果,利用神经网络的联想记忆功能,对除噪后畸变的语音进行修正,给出了修正的公式。就修正这一步来说,它又符合听觉循环通路的概念。采用高斯白噪声和汽车噪声对系统进行了实验分析,从客观和主观两方面用多个度量方法来评价语音增强的效果。