论文部分内容阅读
近年来随着Web2.0技术的发展,以在线视频分享网站中的网络视频集为研究目标的网络视频检索技术逐渐成为研究的热点。由于网络视频内容丰富且质量参差不齐,传统的基于内容的视频检索方法无法达到理想的检索性能。在网络视频环境下,视频具有丰富而冗余的上下文信息,为视频检索带来了新的机遇和挑战。如何对网络视频集中多模态的上下文信息进行有效的建模和挖掘,实现基于上下文的检索是一个重要的研究问题。
针对这一问题,本文开展了基于社区挖掘的网络视频检索技术研究。社区结构是指网络中内部连接紧密外部相对稀疏的节点集合,是复杂网络中重要的拓扑属性。社区挖掘可以揭示网络的区域化特性,对于理解和分析网络结构具有重要的意义。而在网络视频检索中各种数据主体自然呈现复杂的多模态关联网络结构,从而为利用社区挖掘技术来辅助视频检索提供了用武之地。
本文研究旨在对网络视频环境下视频的多模态上下文信息进行形式化表示和关联网络建模,挖掘其中的社区结构,将蕴含于数据关联中的群体智慧应用于视频检索,帮助提高检索性能和提升用户检索体验。本文从视频上下文信息建模、检索结果重排序、交互反馈策略等三个方面对网络视频检索关键技术展开深入研究,取得了如下研究成果:
1.基于社区挖掘的视频上下文建模和排序方法
网络视频具有的丰富的多模态上下文信息是对视频内容的有益补充,可以辅助对视频内容的理解。本文提出一种新颖的基于社区挖掘的视频上下文建模和排序方法。该方法首先将用户、视频、文本标签三种实体及其多模态关联关系表示成一个异质关联网络,通过挖掘其中的社区结构,获得蕴含在多模态上下文中的一致性信息;其次,基于上述社区结构,通过构建社区-视频二分图实现视频的检索排序。本文方法可以降低对大规模视频集分析的复杂度,并降低单一模态上下文信息带来的噪声。在YouTube网络视频数据集上的实验表明本文方法可以有效提升视频检索的性能。
2.基于多尺度社区挖掘的视频重排序方法
视频重排序方法旨在通过挖掘数据内在关联,对原始检索结果进行重新排序,对于提高视频检索质量具有重要意义。本文提出一种基于多尺度社区挖掘的视频重排序方法,以综合实现网络视频用户对于检索结果相关性和多样性的排序要求。该方法首先通过查询到社区结构的映射获得查询相关社区,保证检索结果的多样化主题分布;然后在查询相关社区对应的局部关联网络中挖掘多尺度子社区结构,实现与之对应的树状随机图模型的概率估计,并进一步通过与查询节点相关的潜在链接预测,获得与各查询子主题高度相关的视频。实验结果表明,本文方法对初始检索结果的性能提升达到21.3%,同时实现对查询相关主题的多样化分布,提升了用户的检索体验。
3.基于社区的交互式视频检索方法
交互式视频检索致力于在检索过程中引入用户的指导,使检索结果更加符合用户的查询意图,以实现个性化的用户要求,是网络视频检索中的关键问题。本文提出一种基于社区的交互式视频检索方法。利用发现的社区结构,对大规模视频集进行区域化组织,在此基础上提出一种分层的相关反馈算法。该方法通过在社区间和社区内部的分层反馈来兼顾标注样本的全局和局部上下文,可以降低反馈算法的时间消耗,适应交互式检索的快速反应需求。此外,设计了一种基于社区地图的交互模式,将标注样本在社区中的模块化分布直观地显示给用户,为用户标注提供有效指引,大大提高了用户反馈的效能。在TRECVID2009交互式检索视频集上的实验结果表明:与经典的反馈算法相比平均检索精度增幅达22.2%~50.8%;同时,通过对基于该技术开发的原型系统VideoMap进行用户打分,验证了本文提出的交互模式的有效性。