鲁棒语音识别中基于矢量泰勒级数的特征补偿算法改进与实现

来源 :东南大学 | 被引量 : 0次 | 上传用户:lrg1169
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在实际环境中,由于环境噪声的干扰和语音自身的变异性,语音识别系统的识别性能并不理想。鲁棒语音识别技术是语音识别系统从实验室迈向实际应用的关键技术,用于解决语音训练环境与测试环境失配导致的识别性能下降问题。  论文主要从特征补偿方面针对实际环境中的加性噪声问题,对鲁棒语音识别技术进行分析和研究,以提高语音识别系统在实际环境下的识别性能。论文的主要工作包括:  (1)分析了鲁棒语音识别系统结构。其中端点检测使用短时能量和短时过零率作为判决条件,特征提取使用美尔倒谱频率系数表示语音信号的特征参数,声学模型包括高斯混合模型(GMM: Gaussian Mixture Model)和隐马尔可夫模型(HMM: Hidden Markov Model),两类声学模型分别用于特征补偿和模式识别。  (2)提出了一种基于矢量泰勒级数(VTS: Vector Taylor Series)的多环境模型特征补偿算法。该补偿算法在不同信噪比环境下建立多个GMM和HMM模型,其中GMM用来描述整个语音信号空间的分布,HMM用来描述每个孤立词模型的分布。多环境特征补偿算法首先使用矢量泰勒级数特征补偿算法估计测试语音中噪声的均值和方差;然后,根据测试语音找到与其最匹配的含噪训练语音的GMM模型;最后,利用最小均方误差准则,计算测试语音映射到最优模型环境下的含噪语音特征参数。该算法通过建立基本环境模型集,根据测试语音在补偿阶段选择最优GMM模型,在识别阶段选择最优HMM模型,有效降低训练环境和测试环境之间的失配性,因此能取得更好的识别结果。  (3)实现了动态双门限的端点检测方法,将语音信号的短时能量和短时过零率结合,根据实时的信号调整检测时的阈值,以提高端点检测的准确性。为提高语音识别系统的可用性,将系统的词汇量从20个孤立词扩展到100个孤立词,并通过实验分析孤立词数量、训练样本数、GMM混合数和识别性能之间的关系,从而得到针对中词汇量语音识别系统理想的训练样本数目和GMM混合数。  (4)分别实现了基于MATLAB和C平台的语音识别系统。在MATLAB平台上进行仿真实验,通过大量离线实验验证多环境特征补偿算法的有效性。将系统移植到C平台,实现了实时的非特定人孤立词识别系统。实验证明,改进后的语音识别系统在噪声环境下能取得更高的识别性能。
其他文献
学位
期刊
期刊
期刊
随着社会的进步及移动用户的迅猛增长,第三代移动通信越来越受到各界的重视。多用户检测技术是第三代移动通信中重要的技术之一;常规CDMA接收机采用匹配滤波器的结构,但是这种结
H.264/AVC是ITU-T和ISO/IEC联合推出的新一代视频压缩编码标准。与以前的视频压缩标准相比,在相同的视觉感知上,H.264/AVC标准的编码性能有了明显的改进和提高,同时具有良好的网络
期刊
期刊
期刊
期刊