面向大规模信息检索的哈希学习方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:sirius1394
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,人类已经进入大数据时代。如何有效地存储和检索这些数据是发挥大数据高级价值中至关重要的一环。传统方法在对数据进行有效地压缩和检索,处理高维数据,利用更现代的机器学习方法改进性能等方面还存在很大不足。哈希学习由于其灵活性和有效性,逐渐成为大数据信息检索的重要方法,并在机器学习领域占得一席之地。虽然目前对于不同的应用场景、不同的问题已经提出了很多哈希方法,但仍有一些亟待解决的重要难题。例如,提高现有哈希方法进行大规模训练的能力,处理多种不同模态的数据,展开更深入的理论分析,等等。  本文以大规模数据的信息检索为应用背景,开展哈希学习的研究,并取得了若干研究成果。本文的主要贡献如下:  1.提出了一种基于近邻表示分解的KNN哈希方法。该方法通过最大化KNN分类器的分类精度学习紧凑的二值码。为降低训练过程中的存储和时间复杂度,提出一种分解的近邻表示方法,该方法将方形的近邻矩阵表示成两个瘦长的参数矩阵的乘积。这一表示不但具有明确的物理意义而且通过优化原始目标的下界目标显著降低了学习复杂度。实验证实了所提方法可以取得不错的哈希性能,同时显著减少训练时间。  2.提出了一种排序保持跨模态哈希方法。该方法首次将排序保持方法论引入到跨模态哈希中。提出了一种基于回归的排序保持损失函数,并具有大间隔性质。为求解导出的优化问题,引入一个辅助二值矩阵,并使用交替优化技术求解。关于辅助二值矩阵的二值二次规划问题满足子模属性,可以使用图割快速求解。在三个公开数据集上的实验表明所提方法显著提高了跨模态检索的排序性能。  3.提出了一种局部敏感的两步哈希方法。该方法使用基于局部敏感哈希的随机方法而不是基于优化的方法生成二值码。理论上证明了在一定条件下所提方法是一种局部敏感的哈希策略,具有语义保持属性,当使用哈希表进行查找时具有次线性时间复杂度。同时证明了非对称的编码方式优于对称的编码方式,这有助于解释为什么离散哈希方法在实际中表现得非常有效。在实验层面,验证了与现有的两步方法相比所提方法不仅训练速度更快,而且可以取得与基于优化的两步哈希方法可比的检索性能。
其他文献
作为光学成像系统的重要技术之一,自动调焦技术经过几十年的发展,已广泛运用到相机及显微镜等成像领域当中,并出现了多种调焦方法,如测距法和相位检测法。随着数字图像处理技
学位
原油电脱水器是石油石化企业中的核心设备,而电脱水脉冲电源则是电脱水器的核心组成部分,因此电脱水脉冲电源质量的优劣直接决定着原油脱水的效果。目前各大油田中普遍采用的
工业无线网络技术是继现场总线之后,工业控制领域的又一个热点技术,是降低工业测控系统成本、提高工业测控系统应用范围的革命性技术。WIA-PA(Wireless Networks for Industr
学位
光学分子影像技术是一种融合信息科学、数学以及生物医学的多学科交叉前沿成像技术,它的出现和应用,推动了医学影像的快速发展。在光学分子影像技术中,研究者将荧光标记物作为示
基于视频图像处理的交通对象检测与分析是智能交通系统研究的重要组成部分。随着视频监控硬件技术和视频图像处理软件技术的快速发展,智能交通视频监控分析受到了广泛关注,并开
针对大规模、高维度的图像分类任务,基于人工设计的特征提取算法很难快速准确的对图像进行识别。基于数据的特征学习方法,特别是深度学习,能够充分发挥并行计算架构的优势,从大量
在鞋底生产过程中,为了快速响应市场,企业采用市场和客户的需求为导向安排生产,这使得面向订单生产是此类企业最重要的生产方式,根据客户的订单需求,实现生产计划的快速响应并合理
绗绣这种生产工艺在现代纺织生产中得到广泛的应用,是纺织服装企业常用的技术手段,它和一般传统刺绣产品无论在花色、款式、制作和工艺上都有很大的区别,经过绗绣处理后的产品一
学位
无线传感器网络的随机部署、自组织、环境适应等特点使其在军事、环境、医疗、工业和其他领域有广阔的应用前景和很高的应用价值。工业无线传感器网络是无线传感器网络在工业
学位
序列标注是自然语言处理和机器学习领域中的一项重要的基础性工作,是近年来的一个研究热点。本论文研究序列标注中的神经网络方法,具有理论意义和应用价值。  论文的主要工作