论文部分内容阅读
目前,图像描述算法已是人工智能领域的研究热点之一,在跨模态检索以及视觉语义理解方面也有着广阔的应用。当前已有的图像描述算法主要是基于编码器-解码器架构的,一般采用卷积神经网络作为图像编码器,循环神经网络作为解码器。最近,一种基于卷积神经网络的解码器被提出来,用以解决循环神经网络不可并行计算的问题。然而,当前基于的卷积神经网络解码器算法不能直接建模输入单词间的相关性以及特征通道之间的相关性。同时,这种基于一维卷积网络的解码器同样存在训练-测试偏差的问题。
根据当前一维卷积网络解码器算法中存在的问题,本文研究了基于自注意力机制和通道注意力机制的一维卷积神经网络解码器算法,提出了用于捕捉输入单词间相关性的序列注意力机制以及用于捕捉特征通道间相关性的通道注意力算法。为了解决训练-测试偏差问题,我们首次将强化学习应用至一维卷积网络的训练中。本文主要的研究工作如下:
(1)首先,我们基于自注意力机制,设计用于直接捕捉单词间相关性的序列注意力机制,同时改进了传统的单头点乘空间注意力机制,进一步提升模型的效果。为了能有效融合序列注意力和空间注意力,提出了自适应注意力机制,使得模型能自主学习到何时关注图像内容,何时关注序列内容。其次,当前基于一维卷积神经网络的同样存在训练-测试偏差的问题,为了解决这一问题,本文首次将强化学习中的策略梯度算法应用至一维卷积网络解码器的训练过程中,使得模型能直接利用评价指标指导网络的训练,同时避免使用真实的单词作为输入,导致测试时误差累积的情况。
(2)基于通道注意力机制,设计了一种新的用于一维卷积神经网络的门控算法。该算法能够使模型捕捉到特征通道之间的相关性,从而学习到更好的特征表示。通过在图像描述任务以及在自然语言翻译任务上的实验表明,该算法能够显著提升模型的输出效果。同时,我们在医学影像报告自动生成任务上简单应用了提出的算法。结果表明,我们的算法能够生成简单可读的报告,并且与原报告结果基本一致。
根据当前一维卷积网络解码器算法中存在的问题,本文研究了基于自注意力机制和通道注意力机制的一维卷积神经网络解码器算法,提出了用于捕捉输入单词间相关性的序列注意力机制以及用于捕捉特征通道间相关性的通道注意力算法。为了解决训练-测试偏差问题,我们首次将强化学习应用至一维卷积网络的训练中。本文主要的研究工作如下:
(1)首先,我们基于自注意力机制,设计用于直接捕捉单词间相关性的序列注意力机制,同时改进了传统的单头点乘空间注意力机制,进一步提升模型的效果。为了能有效融合序列注意力和空间注意力,提出了自适应注意力机制,使得模型能自主学习到何时关注图像内容,何时关注序列内容。其次,当前基于一维卷积神经网络的同样存在训练-测试偏差的问题,为了解决这一问题,本文首次将强化学习中的策略梯度算法应用至一维卷积网络解码器的训练过程中,使得模型能直接利用评价指标指导网络的训练,同时避免使用真实的单词作为输入,导致测试时误差累积的情况。
(2)基于通道注意力机制,设计了一种新的用于一维卷积神经网络的门控算法。该算法能够使模型捕捉到特征通道之间的相关性,从而学习到更好的特征表示。通过在图像描述任务以及在自然语言翻译任务上的实验表明,该算法能够显著提升模型的输出效果。同时,我们在医学影像报告自动生成任务上简单应用了提出的算法。结果表明,我们的算法能够生成简单可读的报告,并且与原报告结果基本一致。