论文部分内容阅读
随着移动互联网通讯带宽增加和智能手机移动处理能力的增强,视频的创作与传播变得越来越方便,越来越多的视频被用户创作产生。为了有效利用海量视频资源,对其蕴含的丰富语义进行理解且检索是一个很有意义的研究内容。
传统的视频理解模型往往从预先定义的类别标签出发,基于属于该类别标签视频中的内容要素训练模板,进而完成语义识别任务。这种方式存在一定程度的局限性。对于预先定义类别标签中没有覆盖到的内容要素,该方法是无法对其进行分析处理。同时,预定义类别在语义粒度上较为宽泛,无法实现对细粒度语义目标进行检测。
自然语言是人们日常交流中最常用的交流沟通方式,其能够以一种自然的方式来描述更加复杂的语义。本文针对以自然语言为线索的视频内容理解这一问题进行研究。相比传统的基于类别标签的视频理解任务,自然语言中包含了更加丰富细粒度的语义信息。如何在自然语言所刻画的丰富细粒度文本语义信息线索与其对应视频中视觉信息呈现之间架构桥梁,对文本语义和视觉内容进行有机融合,在自然语言和视觉信息分别描述的多粒度语义之间建立关联,跨越模态异构鸿沟和语义鸿沟是本论文所需要解决的问题。
为此,本文主要从以下三个方面对挖掘自然语言和视觉信息之间不同粒度进行语义融合的问题进行了研究:
1.提出了注意力序列到序列编码器(Attentive Sequence to Sequence Translator,ASST),以对视频和自然语言之间的细粒度跨模态关系进行深入建模。对于根据自然语言描述进行视频片段定位的这一任务,相比于传统方法,ASST方法能够在挖掘出在视频帧-单词之间的语义关联中引入了注意力机制,可发现丰富的跨模态细节关联信息,避免在视频特征编码中丢失自然语言所描述的细粒度视觉信息。
2.提出了集成交互网络(Interaction-Integrated Network,I2N)模型,通过引入视频时序关联信息,有效利用自然语言句子与其对应视频帧序列以外的额外视频帧序列。例如,为了理解“第二次对着舞台拉近镜头”这一视频片段,不仅要理解“第二次对着舞台拉近镜头”这句语句和语句所对应视频帧序列,同时也要理解这句语句所引用的“第一次对着舞台拉近镜头”视频片段。这样才能完成以自然语言为线索来定位视频片段的任务。为此,本文进一步深入探索了视频和自然语言之间的作用关系,提出了一种新型的集成交互模块(Interaction-Integrated Cell,I2C)。I2C对自然语言所对应的视频帧序列及其所引用视频帧序列进行了建模,获得了更加精确的视觉-自然语言信息的语义对齐,进一步提升了以自然语言为线索的视频片段定位任务的准确性。
3.提出了极坐标相对位置编码(Polar Relative Positional Encoding,PRPE)机制.PRPE可以挖掘自然语言所描述视觉对象在视频帧中的空间关系。具体而言,PRPE中通过参数化的方式构建了刻画视觉对象在空间中“方向”和“距离”的特征表达函数,用于高效地提取和利用自然语言中所隐含的视觉对象之间的空间关系。这一方法在根据自然语言描述进行视频物体分割的任务中,能够通过利用自然语言中对视觉对象空间关系的描述而获得更加精确的目标物体定位与分割。
传统的视频理解模型往往从预先定义的类别标签出发,基于属于该类别标签视频中的内容要素训练模板,进而完成语义识别任务。这种方式存在一定程度的局限性。对于预先定义类别标签中没有覆盖到的内容要素,该方法是无法对其进行分析处理。同时,预定义类别在语义粒度上较为宽泛,无法实现对细粒度语义目标进行检测。
自然语言是人们日常交流中最常用的交流沟通方式,其能够以一种自然的方式来描述更加复杂的语义。本文针对以自然语言为线索的视频内容理解这一问题进行研究。相比传统的基于类别标签的视频理解任务,自然语言中包含了更加丰富细粒度的语义信息。如何在自然语言所刻画的丰富细粒度文本语义信息线索与其对应视频中视觉信息呈现之间架构桥梁,对文本语义和视觉内容进行有机融合,在自然语言和视觉信息分别描述的多粒度语义之间建立关联,跨越模态异构鸿沟和语义鸿沟是本论文所需要解决的问题。
为此,本文主要从以下三个方面对挖掘自然语言和视觉信息之间不同粒度进行语义融合的问题进行了研究:
1.提出了注意力序列到序列编码器(Attentive Sequence to Sequence Translator,ASST),以对视频和自然语言之间的细粒度跨模态关系进行深入建模。对于根据自然语言描述进行视频片段定位的这一任务,相比于传统方法,ASST方法能够在挖掘出在视频帧-单词之间的语义关联中引入了注意力机制,可发现丰富的跨模态细节关联信息,避免在视频特征编码中丢失自然语言所描述的细粒度视觉信息。
2.提出了集成交互网络(Interaction-Integrated Network,I2N)模型,通过引入视频时序关联信息,有效利用自然语言句子与其对应视频帧序列以外的额外视频帧序列。例如,为了理解“第二次对着舞台拉近镜头”这一视频片段,不仅要理解“第二次对着舞台拉近镜头”这句语句和语句所对应视频帧序列,同时也要理解这句语句所引用的“第一次对着舞台拉近镜头”视频片段。这样才能完成以自然语言为线索来定位视频片段的任务。为此,本文进一步深入探索了视频和自然语言之间的作用关系,提出了一种新型的集成交互模块(Interaction-Integrated Cell,I2C)。I2C对自然语言所对应的视频帧序列及其所引用视频帧序列进行了建模,获得了更加精确的视觉-自然语言信息的语义对齐,进一步提升了以自然语言为线索的视频片段定位任务的准确性。
3.提出了极坐标相对位置编码(Polar Relative Positional Encoding,PRPE)机制.PRPE可以挖掘自然语言所描述视觉对象在视频帧中的空间关系。具体而言,PRPE中通过参数化的方式构建了刻画视觉对象在空间中“方向”和“距离”的特征表达函数,用于高效地提取和利用自然语言中所隐含的视觉对象之间的空间关系。这一方法在根据自然语言描述进行视频物体分割的任务中,能够通过利用自然语言中对视觉对象空间关系的描述而获得更加精确的目标物体定位与分割。