论文部分内容阅读
图像语义的理解随着计算机视觉领域的不断发展,而变得愈发关键。然而,从图像中直接学习到完整的高级语义并不是一件容易的事,因此物体关系检测任务作为一个图像-语义的中间级任务,是连接物体检测和图像理解的桥梁。图像内物体关系识别的目的是在计算机识别物体类别的基础上,对物体间的语义关系进行学习并识别。物体关系,通常使用“主语-谓语-宾语”的三元组形式表示。其中主语和宾语都是物体对象的类别,谓语表示了两者间的语义关系。通过对物体关系三元组的深入研究,可以对视觉问答,图像字幕等高级图像理解任务的瓶颈点形成突破。然而,物体关系检测任务需要结合所有信息建模出相对主观的语义关系表示,这给特征学习提出新的、更高的挑战:·图像和语义间推理逻辑不明朗,无法找到准确的方式建模物体间关系向量;·物体类别繁多,语义关系也是有千百种,两者相结合的方式更是无穷尽,因此识别方式更加灵活;·物体关系检测的数据集繁杂,各类关系出现的频率不均衡,偏置严重。为此,本文针对物体关系检测任务的核心——语义关系的建模展开研究,提出了新的网络模型设计,完成实验并验证性能,其中包括:1.关系检测使用到的输入特征的生成,以及特征间的上下文传递方式;2.设计适用于该任务的多层关系图卷积网络,使生成的各物体特征包含了图像中相关的全景信息;3.对于一张图像来说,抓住有效的物体关系描述,即可展开完整的语义描述。为此,本文设计对应的模型,目的是学习出各物体关系的存在概率,以便筛选出主要的信息。4.语义关系初始是人类主观设定的,因此与自然语言先验知识的学习密不可分。为了更好应用先验知识,本文设计了生成先验知识图结构的算法流程。同时为了抑制先验知识对图像原本语义带来过多的影响,在网络训练方法上做了改进。总的来说,本文提出了一种基于多关系图卷积编码-解码的框架,实验流程是利用多关系图卷积网络对视觉特征和空间特征进行编码处理,并将处理好的特征送入解码器和概率关系网络得到各关系相应的概率分数,最后通过概率分数的计算得到有效关系的预测。论文选择了具有挑战性的物体关系数据集Visual Genome进行实验,实验结果表明本文的模型在三个指标下都达到了当前的最优性能,模型具有理论和研究价值,可应用于后续的图像理解科研工作中。