论文部分内容阅读
随着互联网的快速发展以及图像和视频采集设备的广泛普及,催生了大量地以图像和视频为代表的海量视觉信息。这些视觉信息由于其信息量大、表现力强、形象生动,已成为人们获取信息的重要来源之一,海量视觉信息的理解与分析也成为当今多媒体信息处理领域的一个重要研究方向。另一方面,以视觉特征为主要描述子的视觉信息的理解与分析在近十几年来有了爆炸式的发展,从底层到高层,从局部到全局,从区域到码本等各种特征被研究人员层出不穷巧妙设计出来。特征数目的急剧增加使视觉特征从特征匮乏时代发展到特征富余时代,这种快速增长一方面促进了基于内容的视觉信息的理解与分析的发展,另一方面也使人们淹没在视觉特征海洋之中。在面对海量视觉信息处理问题时,传统的基于内容的图像和视频媒体的理解与分析技术在中小规模数据集的成功往往难以在海量视觉特征数据库上得到复制,主要原因是缺乏高效的与视觉特征相关的特征选择,匹配与检索技术,难以从纷繁芜杂的视觉特征中筛选并获取自己真正的想要的视觉特征。针对上述的问题,本文就海量特征的选择,匹配与检索技术进行了研究和讨论,主要工作和贡献如下:
在视觉特征选择方面,本文同时考虑分类器分类特性和泛化特性的基础上提出一种有效的多特征分类器设计和实现的框架。具体而言,设计了一种新颖的基于局部感知的多特征分类器,并将这种分类器的设计转化为加权的LASSO回归问题,能够在海量特征池中自动的选择和组合多个简单的特征。采用改进的线性角度回归方法(LARS)来求解,从而能够自适应的选择高性能但稀疏的特征组合成分类器。此外,本文将分类器设计与选择的方法融入了GradientBoosting的框架,将多特征分类器的选择与组合问题转化为在每一轮迭代中函数空间中最优方向的选择问题,提出了基于L1范数规则化的Gradient Boosting算法。在人脸检测与行人检测的数据集中进行了实验,取得了良好的效果。
另外,设计了一种新颖的将特征空间中最优特征选择转化为函数空间中最近邻搜索问题的快速特征选择的方法。通过局部敏感哈希(LSH)技术,我们能够极大的降低特征选择的计算复杂度。另外通过对分类器的分布和候选查询点的结构信息的分析,设计了一种更有效去划分候选查询空间和对视觉特征进行更有效率的编码的方法。与传统的随机投影相比我们的方法更具有投影的效率更高,分类性能更好的特点。结合视频概念检测,证明了我们的方法在海量视觉信息处理中有着广泛的应用前景。
针对海量视觉特征的匹配与检索中的相关问题,我们结合广告视频的内容分析,提出了一种以特征匹配为基础的视觉检索以及进一步的文本聚类和搜索的方法来对视频广告和网络商品信息进行语义连接,并通过该语义连接来进行广告推荐的方法。我们首先利用视觉特征得到一个基于视频内容的分类器,在广告视频中寻找具有产品信息的关键帧。然后通过视觉特征提取,检索、匹配和融合等视觉检索技术,实现关键帧图像在网络产品图像库的图像检索与匹配。然后图像检索返回的信息用来对广告视频进行语义标注,利用文本聚类和检索,推荐出与广告视频语义相关的广告。在海量广告视频推荐上的实验结果,证明了我们的匹配与检索方法能够应用到其他的海量视觉信息处理领域。
最后,我们将特征选择与匹配检索进行了有效结合,就视频拷贝检测中的特征选择与匹配问题进行了综合研究,提出了一种基于视觉轨迹的时空变换模型的方法来对视频拷贝进行检测。我们的方法设计了一种多层次的视觉轨迹描述子去保存和挖掘时空层和特征层的特性。然后,根据所应用问题的背景,设计出相关的视觉特征匹配、融合算法,并采用了最近邻特征检索方法去提高海量视觉特征的匹配速度和精度。在TRECVID2008上的实验证明了我们这种视频拷贝检测方法的有效性。