论文部分内容阅读
近年来认知心理学和神经生物学的研究表明,人类在识别物体所属的具体类别之前,可以对其进行快速的理解。同时,选择性注意理论也表明视觉系统主要负责处理图像中的部分重要细节,而忽略其余部分。以上发现促进了我们工作的开展,我们通过图像视频中显著性、对象性和动作性检测关键技术研究,以探索人类对于图像视频的主观认知机制,大量实验表明该工作取得国际领先的结果。本文的主要贡献如下: 第一,从人类认知角度来看,显著性是指在图像中特定区域相对于其周围区域更为突出的状态或性质。近年来,大量研究者参与显著性检测的研究,并取得了令人瞩目的进展。另一方面,得益于拍摄设备和通讯网络的便捷性,海量图像被创建,传输和存储,使得准确有效地检索图像成为了当前的研究热点。我们发现人类主要基于显著区域来判定图像之间的相似性,从而提出将显著性检测与图像匹配相结合,使得检索结果与基于低层特征的传统方法相比,更为符合人类的主观感受。为了实现该目标,我们首先提出采用不同方案来形式化中心-周围假设,如基于重建残差的模型;然后基于得到的显著性图计算图像中的显著区域;最后根据显著区域的信息,采用完整区域匹配或者图匹配以度量图像间的相似性。在国际公开数据集上进行的实验表明,该方法在显著性检测和图像匹配两方面均取得令人满意的结果。 第二,与显著性反映人类关注区域相类似,对象性表示图像中特定区域包含任意普遍性对象的可能性。显著性与对象性中存在紧密的内在联系,大量研究工作表明对象性检测可以用于显著物体提取,以得到更为准确的结果。对象性检测中的候选区域被称为对象建议,它们相互之间可以重叠,以确保图像中所有对象都能被准确检测。通过快速得到少量的对象建议,可以有效地摒弃传统对象检测识别方法中采用的穷举搜索策略,从而提高对象检测识别的效率和准确率。与传统基于彩色图像的方法不同,我们提出基于立体视觉的对象性检测,以更好应对复杂场景。我们首先利用色彩和深度信息,通过自适应变换得到与对象边界吻合的候选;然后提出由聚类层和候选层构成的层次化结构,以高效地组织所有候选;接下来提出三个立体视觉特征以计算候选的对象性得分;最后提出候选排序策略以得到对象建议。此外,我们构造了包含400对立体图像的数据集,以在室内和室外场景中评估该方法的性能,并为其他研究者提供便利。大量实验表明,该方法在使用不同数目的对象建议时,结果均明显优于目前主流方法。由于立体视觉信息可以看作是对色彩信息的补充,故我们进一步验证该方法可以与目前基于彩色图像的方法相结合,以进一步改善准确率。 第三,受到在图像中计算对象性的启发,我们提出在视频中计算动作性,即连续视频帧片段中包含任意普遍性动作的可能性,以摒弃传统动作检测识别方法中采用的滑动窗口策略,从而改善动作检测识别的效率和准确率,在该方法中这些候选片段被称为时间动作候选(Temporal Action Proposals,TAPs)。近年来随着头戴式拍摄设备如Google Glass和GoPro的普及,国内外研究者开始探索该类设备所拍摄视频(第一人称视频)在不同场景下的应用,并取得了显著的进展。在该工作中我们主要研究第一人称视频中时间动作候选。我们首先提出根据运动信息将视频切分为动作原子;然后根据四个第一人称特征进行层次化聚类得到所有TAPs,其中为了更准确地检测拍摄者人手,我们提出基于外观和位置信息的区域增长策略;最后提出两类动作性网络(空间动作性网络,时间动作性网络)以计算TAPs的包含普遍性动作的得分,并将得分靠前的TAPs作为输出的对象建议。大量实验结果表明该方法在多个公开数据集取得优异的效率和准确率,并通过实验探讨不同动作性网络结构对于结果的影响。