论文部分内容阅读
图像描述主要解决的问题是如何使用自然语言自动描述图像的内容,该研究主要涉及了计算机视觉和自然语言处理两个研究领域,是人工智能中一项重要的研究工作。随着数字图像的广泛使用和传播,其信息价值飞速增长,图像描述作为图像与自然语言的桥梁,具有广阔的应用前景。图像描述可广泛应用于图像检索、语义视觉搜索、多模态检索、对话机器人的视觉智能、视障辅助、军情侦察、智能监控等。
本论文研究细粒度图像描述方法,使计算机自动生成的图像描述除了能够给出图像中显著性物体的一般性描述外,还可以更加精细地描述物体的属性,以及物体之间的关系、物体的名称。这使得图像描述任务复杂且具有挑战性。主要体现在:(1)现有方法通常对一幅图像只生成一个或几个简短的语句,并且一般仅侧重于表达图像中的显著性物体,忽略了对其属性语义的准确描述,且同一属性语义可以描述不同类别的物体,也不容易匹配对应的物体;(2)只研究利用图像中物体的视觉关系作为物体之间的相互关联或交互关系,而图像中视觉关系数目巨大,标注数据量相对较小,当遇到未见过的视觉场景时,生成的描述结果仅仅是一些图像中的显著性物体;(3)现有方法只是对图像中物体的一般性描述,缺乏真实世界中的人名、地名等具体信息。
如何得到细粒度图像描述,如何正确地匹配物体的属性和关系,如何获取物体的名称,这些都是非常具有挑战性的问题。为解决上述问题,本文从细粒度语义学习的角度出发,着手解决其中的三个关键问题:(1)准确地匹配物体和物体的属性;(2)挖掘物体、物体属性以及物体间的关联关系;(3)为图像中的物体引入命名实体。本文主要研究工作归纳如下:
(1)提出了基于门控的物体-属性匹配网络的图像描述方法。该方法利用基于视觉注意力机制的长短期记忆人工神经网络(Long Short-Term Memory,LSTM)定位图像中的物体,利用基于语义注意力机制的LSTM得到图像中的属性标签;在属性语义的类别不可知的情况下,利用门控单元联合学习,将物体与属性语义进行匹配。基于门控的物体-属性匹配网络的图像描述模型,在描述物体时给出更多的属性细节,使生成的图像描述更精细。
(2)提出了场景图对齐的图像描述方法。研究图像与文本在物体、属性及关系上的细粒度对应,将图像和句子高度抽象,以物体、属性及关系为结点生成场景图,利用生成对抗网络将它们相互重构,以实现图像场景图和句子场景图的对齐。该方法由图像场景图生成器、句子场景图生成器、特征映射器和句子生成器组成。所提出的方法能够进一步给出物体的属性及关系,从而生成包含更详细语义信息的描述。实验评估验证了所提出方法的有效性。
(3)提出了上下文驱动的命名实体感知图像描述方法。该方法为了生成包含有人名、地名等具体信息的描述,研究如何将互联网新闻作为背景知识融入到图像描述中,实现上下文驱动的命名实体感知图像描述方法。该方法在图像内容的指导下从新闻中提取命名实体,并利用知识图谱、实体链接算法、量化集验证算法,扩展并分析命名实体的语义相关性,以全局视角发现实体之间的关系,从而得到信息更为具体的图像描述。
本论文研究细粒度图像描述方法,使计算机自动生成的图像描述除了能够给出图像中显著性物体的一般性描述外,还可以更加精细地描述物体的属性,以及物体之间的关系、物体的名称。这使得图像描述任务复杂且具有挑战性。主要体现在:(1)现有方法通常对一幅图像只生成一个或几个简短的语句,并且一般仅侧重于表达图像中的显著性物体,忽略了对其属性语义的准确描述,且同一属性语义可以描述不同类别的物体,也不容易匹配对应的物体;(2)只研究利用图像中物体的视觉关系作为物体之间的相互关联或交互关系,而图像中视觉关系数目巨大,标注数据量相对较小,当遇到未见过的视觉场景时,生成的描述结果仅仅是一些图像中的显著性物体;(3)现有方法只是对图像中物体的一般性描述,缺乏真实世界中的人名、地名等具体信息。
如何得到细粒度图像描述,如何正确地匹配物体的属性和关系,如何获取物体的名称,这些都是非常具有挑战性的问题。为解决上述问题,本文从细粒度语义学习的角度出发,着手解决其中的三个关键问题:(1)准确地匹配物体和物体的属性;(2)挖掘物体、物体属性以及物体间的关联关系;(3)为图像中的物体引入命名实体。本文主要研究工作归纳如下:
(1)提出了基于门控的物体-属性匹配网络的图像描述方法。该方法利用基于视觉注意力机制的长短期记忆人工神经网络(Long Short-Term Memory,LSTM)定位图像中的物体,利用基于语义注意力机制的LSTM得到图像中的属性标签;在属性语义的类别不可知的情况下,利用门控单元联合学习,将物体与属性语义进行匹配。基于门控的物体-属性匹配网络的图像描述模型,在描述物体时给出更多的属性细节,使生成的图像描述更精细。
(2)提出了场景图对齐的图像描述方法。研究图像与文本在物体、属性及关系上的细粒度对应,将图像和句子高度抽象,以物体、属性及关系为结点生成场景图,利用生成对抗网络将它们相互重构,以实现图像场景图和句子场景图的对齐。该方法由图像场景图生成器、句子场景图生成器、特征映射器和句子生成器组成。所提出的方法能够进一步给出物体的属性及关系,从而生成包含更详细语义信息的描述。实验评估验证了所提出方法的有效性。
(3)提出了上下文驱动的命名实体感知图像描述方法。该方法为了生成包含有人名、地名等具体信息的描述,研究如何将互联网新闻作为背景知识融入到图像描述中,实现上下文驱动的命名实体感知图像描述方法。该方法在图像内容的指导下从新闻中提取命名实体,并利用知识图谱、实体链接算法、量化集验证算法,扩展并分析命名实体的语义相关性,以全局视角发现实体之间的关系,从而得到信息更为具体的图像描述。