基于SDBN和BLSTM注意力融合的端到端视听双模态语音识别

来源 :电信科学 | 被引量 : 0次 | 上传用户:dxy_10121012
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出一种端到端的视听语音识别算法.在该算法中,通过具有瓶颈结构的深度信念网络(deep belief network,DBN)中引入混合的l1/2范数和l1范数构建一种稀疏DBN (sparse DBN,SDBN)来提取稀疏瓶颈特征,从而实现对数据的特征降维,然后用双向长短期记忆网络(bidirectional long short-term memory,BLSTM)在时序上对特征进行模态处理,之后利用一种注意力机制将经过模态处理的唇部视觉信息和音频听觉信息进行自动对齐、融合,最后将融合的视听觉信息通过一个附加了Softmax层的BLSTM进行分类识别.实验表明,该算法能有效地识别视听觉信息,在同类算法中有很好的识别率和顽健性.
其他文献
中高层底框剪组合砌体结构由于其高功能造价比,得到广泛的应用,该文针对上前此类房屋的抗震设计中存在的问题,在试验和参阅文献的基础上讨论了刚度比控制、框墙梁简化设计以及在
介绍格栅栏底架制作工艺及精度保证。
该文通过操作实验和应用计算对平驳领纸样设计中底、面领的关系进行了研究,表明在结构相同时,领型和使用面料的厚度等因素使得底、面领样产生差异,其中受影响最大的是底领后中部
会议
该文用牛顿迭代法原理,推导出求解公式,利用计算机求解。在消力坎消能水力计算中,能自动判断坝下和坎后是否要采取消能措施,自动按自由出流或淹没出流计算坎高和池长,自动按需要进
该文应用射流理论分析回复底流的形成机理,由此导出回复底流的判别公式,并用水槽试验加以验证。公式计算结果与原型及模型观测结果相符。