论文部分内容阅读
虽然现在的计算机技术在内存和速度方面都有飞速的发展,但是人机接口技术的发展相对滞后。这阻碍了计算机技术在人们同常生活中的应用。语音识别技术的出现,可以有助于建立自然的、高效的人机接口。使人们,特别是有某些生理缺陷的人们更好地进行人机交流。现有的、仅仅依靠音频语音特征的单模语音识别系统通常是为受控环境中的干净语音设计的,尽管它们在安静的环境里能取得很好的识别效果,但当存在环境噪音时,由于训练环境和实际环境的不匹配,其性能会急剧下降,在很多情况下无法满足实际应用的需要。
为了弥补单模语音识别系统的这一缺陷,受到了人类语音交流方式的启发,建立了同时利用音频和视频语音特征的音频一视频双模语音识别系统。由于视频语音特征不仅能提供额外的语音信息,而且还不易受到环境噪音的干扰。所以,双模语音识别系统在实际应用中取得了良好的效果。如何正确和有效地利用音频和视频语音特征,即双模语音融合技术是双模语音识别中的一个关键问题。本文对音频一视频双模语音融合技术在双模语音识别中的应用进行了研究,其主要内容及成果如下:
1.建立了一个用于双模语音识别研究的、汉语的双模语音数据库。数据库包含了8个说话人,其中4男4女。由每个说话人把每个汉语数字(0--9)重复10遍录制而成。录像中同时捕获了说话人的音频语音和同步的视频语音特征(即说话人正面的脸部图像)。
2.研究和分析了常用的音频语音特征和视频语音特征。其中,音频语音特征包括:线性预测编码系数、梅尔倒谱系数和基于感知的线性预测系数;视频语音特征包括:基于像素参数的特征、基于几何参数的特征和基于模式参数的特征。
3.研究了基于参数捆绑技术和子空间分布的捆绑子空间分布的隐马尔可夫模型。改进了捆绑子空间分布的隐马尔可夫模型的训练算法,并把模型用于语音识别中。实验结果表明,该算法降低了模型训练的复杂度,提高了识别系统的运行效率。
4.提出了一种分等级的、并行的AdaBoost算法,并用于双模语音识别。这种分等级的并行AdaBoost算法不仅可以使每个基本识别器中的多个类别的隐马尔可夫模型同时进行训练,而且可以使多个基本识别器同时进行训练。该算法不仅提高了双模语音识别系统的识别率和抗噪性。而且,与传统的AdaBoost算法相比,提高了识别系统的执行速度。
5.提出了一种新的多数据流隐马尔可夫模型的流权值优化算法,并用于双模语音识别。该算法把识别器的类识别率和散度作为两个测度,计算流权值。然后在最小分类错误准则的指导下,利用广义概率下降算法和N-best算法,进行多数据流隐马尔可夫模型的流权值优化。实验表明,用该算法优化得到的流权值,可以有效地提高双模语音识别系统的识别性能和鲁棒性。