高维欧氏空间中的近似相似性检索

来源 :中山大学 | 被引量 : 4次 | 上传用户:zingerler
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高维空间中的相似性检索(High-Dimensional Similarity Search)问题在数据库、数据挖掘以及计算几何等领域有着广泛的应用。给定一个相似性函数,相似性检索问题是指在数据库找到一个数据对象,使得它与一个给定的查询对象的相似度最大。根据度量函数的不同,相似性检索问题有不同的形式。本文着重研究相似性检索在欧氏空间中三个非常重要的问题:最近邻检索、最远邻检索和最大内积检索。由于受到维度灾难的影响,在高维空间中找到精确的结果代价非常大,因此近似相似性检索在近20年得到了广泛的关注。然而,目前近似相似性检索问题仍然存在一些挑战:(1)对于高维c-近似最近邻问题,位置敏感哈希(Locality Sensitive Hashing,简称LSH)及其变体是目前最有影响的方法。然而,当前LSH函数由于采用查询无关的分桶策略,容易导致误分桶,并限制了业界领先的外存方法LSBForest和C2LSH只能支持c≥2的近似最近邻检索;(2)对于高维c-近似最远邻问题,目前尚没有一个高效的外存算法可以处理高维空间中的近似最远邻检索;(3)对于高维c-近似最大内积问题,业界领先的方法Sign-ALSH和Simple-LSH没有充分利用数据的分布和查询的信息,导致检索的精度和效率偏低。针对上述这些问题,本文以LSH函数族和LSH机制为切入点,对高维欧氏空间中的c-近似最近邻检索、c-近似最远邻检索和c-近似最大内积检索做了深入的研究。总的来说,本文的主要工作有以下几点:对于高维c-近似最近邻问题,本文首先提出了一种针对lp距离的查询引导的LSH函数,其中p∈(0,2]。与传统的LSH函数相比,该函数使用查询的哈希值作为锚点,临时的对数据对象进行分桶,可以有效避免误分桶操作。基于查询引导的LSH函数,本文提出了基于外存的新型的查询引导的位置敏感哈希机制(QueryAware LSH,简称QALSH)。本文通过理论证明,QALSH对于近似最近邻检索有理论保证,并且可以支持任意的近似比例c>1。本文的实验结果表明,QALSH胜过业界领先的LSB-Forest,C2LSH和SRS算法,并且在高维空间中表现尤其出色。对于高维c-近似最远邻问题,本文首先提出了反转LSH函数族的概念,并设计了一个切实有效的反转查询引导的位置敏感哈希函数族。基于这个新的函数族,本文提出了两个针对近似最远邻的外存算法RQALSH和RQALSH*。本文通过理论分析表明,RQALSH对于近似最远邻检索有理论保证。本文的实验结果表明,RQALSH和RQALSH*的性能,要明显优于业界领先的QDAFN和DrusillaSelect算法。对于高维c-近似最大内积问题,本文通过利用数据的分布和查询的位置信息,提出了一个基于同心超球的非对称的位置敏感哈希机制(Asymmetric LSH scheme based on Homocentric Hypersphere,简称H2-ALSH)。H2-ALSH机制对于近似最大内积检索具有理论保证,并且支持任意近似比例0<c<1。本文的实验结果表明,H2-ALSH机制可以有效提升查询的精度,并且H2-ALSH机制的效率明显胜过业界领先的Sign-ALSH和Simple-LSH算法。
其他文献
目的通过文献计量学方法分析我国协同护理模式(CCM)在慢性病管理中的应用现状及问题。方法以协同护理等为主题词,在中国期刊全文数据库和万方数据库检索CCM应用于慢性病管理
中国和印度作为世界上发展最快的两个经济体,两国的经贸合作对东南亚甚至整个世界都将产生重要的影响。本文首先回顾了中印贸易发展的特点,通过深入分析双方合作的有利条件及
由于当前视频序列影像数据获取方便、快捷以及廉价的优点,使得基于视频序列的全景图像及全景立体图像的生成得到较多研究者的关注。全景影像不仅能全方位的表达地理场景的完
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
摘要:对于中学生而言,数学是一门较为抽象且复杂的学科,不论是数学概念,还是数学计算过程,都对他们造成一定的困扰,特别是乡村中学的初中学生。也正是因为这一问题的存在,导致目前教师急需思考的一个问题,便是如何对这个群体——“乡村数学学困生”进行有效的心理矫正,使他们摆脱数学学困生的困境。文章结合一些相关的资料,来试着分析一下乡村中学初一数学学困生心理及矫正策略。  关键词:乡村教学;初中数学;学困生;
城市交通监控系统是智能交通系统的重要组成部分之一,传统的交通监控模式已越来越不适应日益增加的城市车辆的需要。本课题将基于电磁感应技术的车辆检测器、射频识别技术以
运用叶圣陶教育思想的理论,以人才可持续发展的理念为根本,构筑了一个以市场为导向,"政校行企"四轮驱动的合作平台,扎实推进教师梯队动态培养,提出"双师双能型"教师队伍建设