基于跨模态语义对齐的视频时刻检索研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:super4ok
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的繁荣和视频技术的发展,视频内容正被越来越多的人们所青睐。每天,世界上都有大量的视频被拍摄、剪辑,并上传到互联网上。由于视频内容每天都在指数级地增长,研究人员越来越多地关注于使用视频检索技术来处理大量的视频信息。随着视频时长的增加,人们希望可以从较长的视频中检索出与文本最为对应的视频片段,这就引出了视频时刻检索这个任务。视频时刻检索是根据给定的文本,从一段长视频中,找到与该文本语义最为对应的一个片段,并返回该片段的开始时间和结束时间。这个任务还有助于完成其他的视频任务,如视频问答、视频描述生成和视频定位等。目前主流的视频时刻检索方法主要由以下三个阶段组成:多模态特征提取、跨模态融合和视频时刻定位。在多模态特征提取过程中,视频特征和文本特征被分别提取。随后,不同模态的特征进行跨模态融合,得到融合特征。最后,融合特征被送入视频时刻定位网络,生成最终的视频时刻检索结果。虽然该流程被证明能有效的进行视频时刻检索,但仍存在着很大的改进空间。比如,跨模态融合不够充分,同一视频片段中多个动作会产生相互干扰,视频表征过于粗糙等。基于以上问题,本文以该流程为基础,分别针对不同视频时刻检索的不同问题,提出了以下两种不同的改进算法以提升视频时刻检索的效果。针对不同模态的特征融合不够充分,以及视频中多个动作的干扰问题,本文提出了基于跨模态动态网络的视频时刻检索方法。该方法根据文本和视频特征,创新性地动态生成卷积网络的卷积核,使用跨模态的特征引导卷积。同时,该方法还使用了一种新颖的序列帧注意力机制,来捕捉同一个视频片段中的不同动作特征,从而减少同一片段中不同动作之间相互造成的干扰。这两种机制在推断过程中,均不会带来显著的计算量的增加,且有效地提高了视频时刻检索的性能。针对视频表征过于粗糙的问题,本文还提出了基于语义增强物体推理网络的视频时刻检索方法。不同于传统的视频特征,该方法使用了物体级别的视觉特征,结合语义信息来推测不同物体之间的关系,从而理解视频内容。并且,该方法使用了一个新的时序平移机制,来避免不对齐的物体所带来的干扰。本文所提出的方法,在公开的Charades-STA和TACo S数据集上进行了实验。实验结果表明,相较于已有的方法,本文所提出的方法在多个指标上都达到了具有竞争力的性能。
其他文献
<正>去年我接了五年级的班。那天,刚刚上了一节语文课,下课后,我走进办公室,这时一个学生怯生生地走到办公室门前喊了声:"报告。""请进。"这个学生不好意思地走到我跟前,直截了当地说:"刘老师,我叫周正,我不会写作文,一写作文就害怕。听说您很会指导写作文,不知跟您能学会写作文吗?""能,能啊,这不,你的口头表达能力就不错嘛。"我热情并肯定地回答了他。
期刊
食物与人类生活和繁衍密切相关。烹饪视频、食物图片和菜谱等多媒体数据在互联网上广泛传播,为许多与食物相关的研究带来了机遇。本文主要研究的跨模态菜谱图文检索任务,旨在通过一个模态中的食物图像或菜谱来检索另一模态中最相关的菜谱或食物图像。图像与菜谱的互相检索是跨模态检索领域的一个重要子任务,实现食物在不同模态数据之间的联系可以进一步方便与食物相关的记录、追踪等,这对未来的智能健康应用有着重要意义。目前已
在我国由包装大国向包装强国迈进的过程中,包装行业的发展尤为重要,包装机械成为制约包装行业发展的主要因素。翻领成型器作为立式包装机的核心部件,具有结构紧凑,安装方便等优点,广泛应用于医疗、日化以及食品等行业的包装产线。但翻领成型器曲面设计、加工制造难度高,目前仍处于有待进一步研究。因此,本文以翻领成型器为研究对象,针对翻领成型器理论建模和制造工艺展开研究,解决了生产效率低、精度不高的问题,具体研究内
<正>不久前的一天,我接到一位家长的电话,说她孩子带去的40元钱被其他孩子偷走了!当时我很吃惊,多么刺耳、令人震撼的"偷"字!我不相信这样的事情会出现在这个可爱的班级里,当时一副副天真烂漫的笑脸一一闪现在我的脑海。我安慰了那位家长,决心一定要把这件事查个水落石出。
期刊
头面部疾病是指发生于头面及五官的疾病,包括干眼症、耳鸣耳聋、鼻炎、面瘫、头痛以及脑血管疾病等等,在临床治疗中方法多种多样,其中针刺治疗为一种有效治疗手段,甘肃中医药大学郑魁山教授所创的“温通针法”具有温经络,通血脉,散寒祛风,活血行气等作用,总结近几年来温通针法治疗头面部疾病的临床研究进展,为进一步临床应用提供参考。
针对土地报批工作中土地勘测定界、功能区划分及指标计算、耕地占补平衡、永久基本农田占补平衡、违法用地查处等多个流程涉及到的重复性工作多、数据量大的特点,文章论述了ArcGIS在土地报批中的应用,通过图形拓扑检查、数据叠加分析、ArcGIS模型构建器、ArcGIS二次开发等的应用,既能有效提高工作效率,避免重复工作,又能提高数据的准确性,推进报批进度。
土地勘测定界工作是集体土地征收过程中的重要环节,能为用地审批提供精准的土地范围、用地面积、现状地类等数据,在征地报批中具有关键作用。分析了集体土地征收中土地勘测定界的工艺流程和注意事项,并利用ArcGIS模型构建器(Model Builder)实现了征地地类自动化叠加分析,具有显著的数据处理优势,极大地提高了工作效率和成果质量,具有较强的实用性。
<正>美工区是幼儿最喜爱玩的区域之一,那一抹拐弯处的一坛一罐、一画一语、一形一图,无时无刻吸引着幼儿的好奇心,让他们流连忘返,或天马行空,或冥思畅想,或怡然自得。美工区虽为方寸之地,但幼儿在区内根据需要,自主选择活动内容和合作伙伴,自由进行探索与交往,才能使师幼互动、生生互动、生境互动的价值得以充分体现。如何满足幼儿在美工区创作的需要,用幼儿喜欢的艺术手法表现、感受自信并获得成功呢?本文从探索和实
期刊