论文部分内容阅读
语音识别是人工智能、自然语言处理和信号处理的基本问题,尤其在近十年的深度学习的勃兴中得到了巨大的发展。但是,语音识别仍然面临着很多挑战和缺陷,例如噪音环境,嘈杂背景,方言的混淆等。针对这些缺陷,前人提出了鲁棒语音识别,并给出了四类解决方案:基于特征空间,基于信号空间,基于模型空间和基于多模态信息,其中基于多模态信息的鲁棒语音识别的主要方向是视音频双模态语音识别(Audio-visual Speech Recognition,AVSR)。视音频双模态语音识别是指利用语音识别中视觉信息和听觉信息的天然关联性,在语音识别中加入视觉信息,其目的在于提高语音识别的鲁棒性。经过几十年的研究探索,视音频双模态语音识别得到了长足的进步,但是视音频双模态语音识别的存在着时态信息利用不完全,忽视多模态特征表达之间的相互作用关系等问题。结合深度神经网络,本文主要探讨深度视音频双模态语音识别的相关方法,主要做了两方面的研究。本文提出了一种适用于视音频双模态语音识别的基于无监督学习和监督学习相结合的深度时态框架模型。本文提出将整个融合过程分解为:模态融合、含有时态因素的模态融合和时态融合。其具体步骤如下:1.对视觉信息和语音信息进行预处理,并采用深度卷积神经网络(CNN)和短时傅里叶变换取得视觉特征和语音特征;2.采用多模态深度自编码网络进行视觉特征和语音特征的模态融针对大多数视音频双模态语音识别对时态信息利用不完全的问题合;3.采用堆叠循环时态网络将模态融合过后的特征再进行进一步的融合,此过程不对时态信息进行处理,但是此融合过程会更好地考虑时态因素;4.采用循环时态网络和池化过程,将多时态特征融合为单一的描述子。我们在AVLetters2,AVDigits,CUAVE和AVLetters数据库上进行了定量的视音频双模态语音识别和跨模态语音识别的实验证明了提出算法的有效性。在指标上,提出的方法优于过往的深层和浅层模型。针对视音频双模态语音识别忽视多模态特征表达之间的相互作用关系的问题,本文提出了的多模态辅助损失门控循环网络模型。这个模型将视音频双模态语音识别的流程分解为:特征提取、数据增强和融合&识别。其中,特征提取和数据增强是融合&识别的前置条件,我们使用论文提出的一整套的特征提取和数据增强方法。融合&识别采用一种基于端对端的多模态辅助损失门控循环网络模型。基于网络结构,本文提出了一个新的损失函数——辅助损失,去训练此网络。辅助损失会平衡音频特征表达、视频特征表达和音视频特征表达之间的关系。我们在AVLetters2,AVDigits,CUAVE和AVLetters数据库上进行了定量的视音频双模态语音识别和跨模态语音识别的实验证明了提出模型和数据增强方法的有效性。并在实验中展示了生成数据增强的结果,验证了辅助损失的有效性。在指标上,提出方法的识别精度优于过往的模型。