论文部分内容阅读
当前的自动语音识别系统都包含一个特征预处理模块,它的目的是通过对语音分帧,提取特征矢量来降低语音信号的冗余度。这些矢量包含了用来区分和识别语音的基本的谱信息。在分析了通常使用的定帧长帧移特征提取方法存在的问题,考察了可能的解决思路之后,本文提出了多时间尺度特征融合的方法,主要的工作和贡献包括:
实现了一种多时间尺度特征融合的方法,使用不同的帧长对每一帧语音提取多种特征,然后将多种特征连接起来。对于连接后的特征,本文使用了两种降维技术--独立成分分析(IndependentComponentAnalysis,ICA)和线性判别分析(LinearDiscriminantAnalysis,LDA)分别对其实施降维,得到和基线系统维数一样的特征;
将基线系统的识别结果和用LDA降维的系统识别结果用ROVER(RecognizerOutputVotingErrorReduction)做融合,选择最优的识别结果。
实验表明,使用LDA降维的系统,词错误率相对基线系统下降了5.12%;使用ROVER做融合,能使词错误率进一步下降。