深度视音频双模态语音识别方法

来源 :中国科学院大学(中国科学院西安光学精密机械研究所) | 被引量 : 1次 | 上传用户:winningking
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别是人工智能、自然语言处理和信号处理的基本问题,尤其在近十年的深度学习的勃兴中得到了巨大的发展。但是,语音识别仍然面临着很多挑战和缺陷,例如噪音环境,嘈杂背景,方言的混淆等。针对这些缺陷,前人提出了鲁棒语音识别,并给出了四类解决方案:基于特征空间,基于信号空间,基于模型空间和基于多模态信息,其中基于多模态信息的鲁棒语音识别的主要方向是视音频双模态语音识别(Audio-visual Speech Recognition,AVSR)。视音频双模态语音识别是指利用语音识别中视觉信息和听觉信息的天然关联性,在语音识别中加入视觉信息,其目的在于提高语音识别的鲁棒性。经过几十年的研究探索,视音频双模态语音识别得到了长足的进步,但是视音频双模态语音识别的存在着时态信息利用不完全,忽视多模态特征表达之间的相互作用关系等问题。结合深度神经网络,本文主要探讨深度视音频双模态语音识别的相关方法,主要做了两方面的研究。本文提出了一种适用于视音频双模态语音识别的基于无监督学习和监督学习相结合的深度时态框架模型。本文提出将整个融合过程分解为:模态融合、含有时态因素的模态融合和时态融合。其具体步骤如下:1.对视觉信息和语音信息进行预处理,并采用深度卷积神经网络(CNN)和短时傅里叶变换取得视觉特征和语音特征;2.采用多模态深度自编码网络进行视觉特征和语音特征的模态融针对大多数视音频双模态语音识别对时态信息利用不完全的问题合;3.采用堆叠循环时态网络将模态融合过后的特征再进行进一步的融合,此过程不对时态信息进行处理,但是此融合过程会更好地考虑时态因素;4.采用循环时态网络和池化过程,将多时态特征融合为单一的描述子。我们在AVLetters2,AVDigits,CUAVE和AVLetters数据库上进行了定量的视音频双模态语音识别和跨模态语音识别的实验证明了提出算法的有效性。在指标上,提出的方法优于过往的深层和浅层模型。针对视音频双模态语音识别忽视多模态特征表达之间的相互作用关系的问题,本文提出了的多模态辅助损失门控循环网络模型。这个模型将视音频双模态语音识别的流程分解为:特征提取、数据增强和融合&识别。其中,特征提取和数据增强是融合&识别的前置条件,我们使用论文提出的一整套的特征提取和数据增强方法。融合&识别采用一种基于端对端的多模态辅助损失门控循环网络模型。基于网络结构,本文提出了一个新的损失函数——辅助损失,去训练此网络。辅助损失会平衡音频特征表达、视频特征表达和音视频特征表达之间的关系。我们在AVLetters2,AVDigits,CUAVE和AVLetters数据库上进行了定量的视音频双模态语音识别和跨模态语音识别的实验证明了提出模型和数据增强方法的有效性。并在实验中展示了生成数据增强的结果,验证了辅助损失的有效性。在指标上,提出方法的识别精度优于过往的模型。
其他文献
本文是“天津市农业科技进步对策研究”课题的主要子课题的研究成果,我们研究建立了天津市农业科技进步的数学模型,确立了衡量天津市农业科技进步作用的指标体系,并测算了天津市
习近平新时代新闻舆论思想具有五项基本特征,即意识形态性、鲜明党性、正能量导向性、工作创新性和全球视野性。从功能定位逻辑看,贯彻意识形态性和鲜明党性是根本任务;社会
常宽,出生在北京.父亲是中国人民解放军空政歌舞团团长兼指挥,母亲是八一电影制片厂演员.他从小就受到了严格的音乐教育,不但学习钢琴、双簧管,还系统地学习了音乐理论.他14
介绍潮州供水枢纽水情测报系统设计方案。通过对本阶段潮州供水枢纽水情测报系统的不足及问题,特别是急需扩充信息源方面的分析,从全面掌握整个韩江流域水情需求的角度进行引申、联想,提出未来韩江流域水利信息化管理的近期框架性建设布局的一些想法。
简述A/O系统处理高浓度氨氮废水的试验过程与步骤,通过采集试验数据,分析试验结果,研究A/O系统处理工艺对高浓度氨氮废水处理的可行性,确定合适的工艺参数.
金融是现代农业和农村经济发展的重要支柱,发展农村普惠金融是帮助农民获得合理金融服务的重要途径。近年来,农村金融环境有了很大改善,农村普惠金融的发展已经具备了良好的
通过研究水利工程招标投标,剖析招标人与有关部门的关系,指出其中的不规范行为,以便理顺关系,明确职责,更好地贯彻执行招标投标的有关法律法规,规范水利建筑市场.
介绍了互宫网络在大规模并行处理机中的重要地位,发展特点,分析了各种互连网络的性能,最后提出了互连网络有待开发的问题。
今年年终花红形势不容乐观,明年加薪的计划可能推延,因此可锐职业顾问提醒身处职场薪情风云的职业人士,要把握住有限的机会,审时度势,未雨绸缪,为打一场薪水保卫战做好充分的准备。  我们知道,通常到每年7月,企业会对员工的绩效做一个阶段性的总结,以此来调整对员工的培训计划和反馈,这种总结往往分明确的和隐性的两种。对明确的制度化的阶段性业绩评估,职业人需及时把握和吃“透”主管意见,借以抓住机会在下半年迅速
随着信息技术的高速发展,大量用户数据生成并被积累,成为备受瞩目的资源,如今许多热门应用都是基于用户数据的个性化、智能化服务,因此针对高维数据使用中的隐私保护成为研究热点。差分隐私凭借其可以抵御背景无关知识攻击和可量化隐私保护水平的优点在业界得到广泛认可,成为隐私保护的一个实际标准。我们也看到,虽然差分隐私可以有效地处理简单的关系数据,但是针对复杂高维数据的差分隐私发布还存在诸多挑战。目前研究重点是