论文部分内容阅读
随着多媒体技术和互联网技术的飞速发展,以视频为代表的多媒体数据正在以惊人的速度增长。面对如此丰富、无序、海量的多媒体数据,如何实现所需资源的有效组织、高效检索和快速获取已成为人类社会面临的巨大挑战,同时也使多媒体检索技术迅速成为当今最热门的研究领域之一。
基于内容的视频检索(CBVR)是多媒体检索领域的重要分支,它摆脱了人工文本标注的传统方式,直接对视频所蕴涵的物理和语义内容进行分析与理解以达到快速准确的检索效果。本文通过对高层语义特征、视频检索机制、相关反馈算法和多源信息融合等四个方面的研究,提出一套新型的基于基本语义的CBVR系统-“基于主题匹配与信息融合的交互式视频检索框架”,其主要贡献包括:
(1)提出基于模型匹配策略和主题匹配策略的视频特征提取方法。定义新型中层特征——模型匹配相关图用以精确描述视频序列的时空信息;定义新型高层特征——主题直方图用以实现语义关键词的自动标注和对视频基本语义内容的表征。
(2)提出基于非监督学习的视频检索机制。使用Dominant Set聚类算法,建立基于非监督学习的索引结构和基于聚类索引的查询机制,显著降低了检索系统的在线计算复杂度同时实现了对数据库更为有效的管理。
(3)提出新型的视频检索相关反馈技术——基于语义的分支反馈算法。该算法采用分支反馈结构和分支更新策略,通过在线补偿监督信息来校正主题直方图所标记的不恰当的语义关键词,进而显著提升系统的检索性能。
(4)建立基于颜色信息和运动信息融合的视频检索模式。使用光流分析方法描述视频帧间的局部运动信息,并将其作为视频的底层图像特征嵌入主题匹配策略生成基于运动信息的主题直方图;使用Dempster-Shafer证据理论将基于颜色信息的主题直方图和基于运动信息的主题直方图进行融合,从而实现基于多源信息融合的视频检索。
(5)根据上述四部分研究,设计并实现了“基于主题匹配与信息融合的交互式视频检索原型系统”--“SMIF VideoSearch系统”。