论文部分内容阅读
基于内容的视频检索技术在过去十几年取得了很大进展,但是由于视频内容底层特征与高层语义之间存在“语义鸿沟”,视频内容无法有效地映射到用户的查询语义。交互式视频检索技术研究如何在检索过程中引入用户的指导,利用主动的人机交互填补“语义鸿沟”,使检索结果更加符合用户的查询意图。该技术有助于提高视频检索的性能,近年来已成为多媒体信息检索领域的研究热点。交互式视频检索技术研究已取得了诸多进展,但还存在以下问题:目前的视频检索方法未充分挖掘视觉等多模态特征;用于调整检索策略的反馈技术较为单一,无法满足用户复杂多样的检索需求;现有系统的人机交互方法效能普遍较低。
本文针对上述问题,从融合多模态信息的相关性排序、相关反馈、反馈策略选择以及人机交互等方面开展深入研究,取得了如下研究成果:
1.基于时空视觉映射模型的相关性排序方法
视频检索结果的相关性排序是交互反馈的重要基础,如何融合文本、视觉等多模态信息改进结果排序,对于提高视频检索性能至关重要。本文提出了一种基于时空视觉映射模型的相关性排序方法,通过构造时空视觉映射模型来挖掘视频内容在时间序列上蕴含的丰富视觉信息,利用视频连续关键帧图像之间的时空视觉相关性,辅助改善文本检索结果的相关性排序,从而提高视频检索的性能。此外,根据该时空视觉映射模型设计了一种新颖的交互式时空视觉关联搜索呈现方法,有效地组织检索结果,方便用户快速浏览和进一步查询。
2.多策略相关反馈方法
相关反馈是交互式检索的核心手段,研究相关反馈技术对于提高检索精度具有重要意义。本文提出了一种多策略相关反馈方法,针对不同的查询需求和检索上下文,提出了基于关联信息、基于主动学习和基于语义一致性三种不同的相关反馈策略。该方法为用户提供了丰富的反馈手段,能够有效地满足其复杂多样的查询需求,并能很好地适应新闻、记录片等多种不同类型的数据集。实验结果表明,多策略相关反馈方法在检索性能上超过TRECVID2006的最佳评测成绩大约6.5%,且该方法的检索效率较高,在较短的时间内就能获得较高的检索精度。
3.反馈策略自动选择机制
多策略相关反馈方法极大地提高了检索的精度,但一般用户难以在不同的检索上下文中优选合适的反馈策略,因此需要为用户提供反馈策略的自动选择。本文提出了一种反馈策略自动选择机制,首先通过对“专家”用户在检索过程中的决策行为进行学习,生成一个上述三种反馈策略的自适应选择模型;然后,以一般用户在检索过程中的状态参数作为模型输入,为用户生成一个在检索上下文中优选的反馈策略推荐,指导用户在恰当的时间选择最佳的反馈策略来调整查询。实验结果表明,该反馈策略自动选择机制能够帮助一般用户提高20%左右的检索精度,从而获得与“专家”用户相近的检索性能。
4.高效能的人机交互方法设计
人机交互方法设计对于增强视频检索的人机交互效能、提高检索性能至关重要。本文提出了一种高效能的视频检索人机交互方法,首先设计了一种基于视觉反应时间最小化的用户界面,合理地组织检索结果;其次,结合该用户界面,设计了一种基于键盘快捷键的浏览标注方式,极大地提高了用户的标注效率;最后,提出了一种动态视频片断的呈现方法,该方法依据运动信息分布提取多个关键帧构成一个动态片断,用来替代单一的静态关键帧图像来表示当前镜头。实验结果表明,使用本文提出的用户界面和标注方式,大大改进了用户浏览标注的效率;与当前常用的静态关键帧呈现方式相比,动态视频片断呈现方法可将检索性能提高约4.6%。