论文部分内容阅读
大规模图像检索在实际场景中有广泛应用,如互联网图像检索、安防监控图像数据检索等,其所涉及的相关问题也是人工智能等领域的重要研究内容,在很长时间里都是学术界和产业界广泛关注、极具理论与实际价值的前沿方向之一。“图像特征检索”(利用图像的视觉特征进行图像间的检索)和“图像语义检索”(利用图像的语义信息实现图像与语义标签间的检索)是图像检索的两类主要任务。对于图像特征检索,图像本身的“多特征”特性需要准确的跨异构特征空间匹配方法来解决;而在大规模图像环境下,需要处理的数据量大、噪声多、场景复杂,需要高效率、高鲁棒性、高通用性的相似性计算方法。图像语义检索的基础是为每个语义构建的图像语义抽取模型。但现实场景中,往往面对语义多样、稀疏、分布不均匀等挑战,很多语义类别缺乏、甚至没有标注数据来训练模型,即“少样本”、“零样本”学习难题。针对上述挑战,本文提出以下创新点:第一,针对图像“多特征”特性带来的跨异构特征空间相似性匹配难题,提出联合矩阵分解哈希框架。与已有框架相比,该框架能够更好地建立不同模态之间联系,实现更准确的跨模态匹配。该框架在无监督和有监督场景进行推广,得到的方法在对应的场景中均有优异的性能。第二,针对图像特征检索面临的数据量大、噪声多、场景复杂等挑战,提出鲁棒通用向量量化框架,利用向量量化实现高效率,并创新性地提出基于?p,q范数的量化损失函数,提升鲁棒性和通用性。并提出一种优化方法系统性地解决了正交约束的?p,q范数最小化问题,并从理论上证明了正确性。在多个标准数据集上的实验表明,该框架显著提升了多种向量量化方法的鲁棒性与通用性。第三,针对图像语义检索中的零样本学习难题,创新性地提出基于样本迁移的零样本学习框架,利用图像数据具有的“类标缺失”、“标签模糊”等特性,为缺少有标注数据的目标类别寻找“伪标注”数据,并利用其进行模型训练。该框架将零样本学习问题转换为一个有监督学习问题,打破了零样本学习的束缚,开辟了新的思路。该框架在多种场景下普遍适用,准确率较已有方法显著提升。第四,在零样本学习基础上,进一步提出“跨类别迁移主动学习”理论概念,并设计多种方法,通过在海量类别之间进行知识迁移,并迭代式地选择最有信息量的数据进行人工标注,实现在节省70%人工标注的情况下,构建准确率相当的语义抽取模型,为大规模图像语义抽取与语义检索的实用化奠定了坚实基础。