基于N维Hilbert曲线的多维索引研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:a1402070128
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为多维数据处理的核心问题,多维索引一直是数据库研究的热点方向。随着医药、CAD、地理,以及分子生物学等的不断发展,对于以支持多维数据管理的数据库系统的研究正在逐步深入。一方面以多维查询为核心的处理对数据库的索引查询效率提出了更高的要求;另一方面,与多维数据相应的海量的数据对索引结构的存储效率也有很高的要求。支持高效多维数据处理的数据库平台在多媒体、地理信息、分子生物、数据挖掘等方面有着广泛的应用。鉴于空间填充曲线作为一种N维空间与一维空间的映射方法,能消除数据多维特征的复杂性,课题确定了以空间填充曲线作为多维索引的实现基础。通过对比分析空间填充曲线族的聚集性特征,确定了采用Hilbert曲线作为研究方向。课题着重研究了实现基于Hilbert曲线的多维索引的几个关键问题。具体研究内容包括:降维索引模型、N维Hilbert解析算法、N维Hilbert曲线生成和映射算法、范围查询分析算法和查询优化策略及多维索引引擎的实现等问题。研究成果为国产达梦数据库系统提供多维数据管理方面的技术支持。  以传统关系型数据库作为平台,提出了一种基于Hilbert曲线的多维索引模型。模型采用降维技术实现了多维数据与B+树结构的结合,实现了高效的数据存储;利用Hilbert曲线的良好的聚集性,实现了高效的多维索引查询。该模型在不改变传统关系型数据库索引机制的基础上,提供了高效的多维数据处理支持。由于以传统关系型数据库作为平台,因此模型在稳定性、安全性、数据存储,以及用户接口等方面具有其它模型所不具备的优势。同时也使传统数据库有了更广的适用范围。整个模型包含用户接口、中间件,以及基础算法集。其中基础算法是本课题的研究重点,包括Hilbert的相关算法、范围分析算法和查询优化等内容。  针对N维Hilbert曲线的构造问题,提出了N维Hilbert曲线的解析算法。解析算法以Hilbert曲线的对称性和自相似性为基础,采用演化的思想进行解析,给出了Hilbert单元的编码描述和Hilbert基因的生成描述。算法实际上是给出了一种新的N维Hilbert曲线的描述方法。解析算法为实现高效的N维Hilbert双向映射奠定了基础。  在N维Hilbert解析算法的基础上,给出了一种新的N维Hilbert映射算法。映射算法以Hilbert单元编码和曲线基因表为基础,基于静态演化规则,采用高效的位运算进行映射计算。实验显示新算法的双向映射效率在10维以内与Z-order算法接近。这就使得过去由于高维Hilbert曲线的复杂性,在实用中以Z-order映射为主的状况得以改变,为在实用中全面取代Z-order映射打下了技术基础。  针对范围查询问题,提出了Hilbert范围分析算法,算法实现了把一个N维的矩形范围描述,转换成等价的一维Hilbert线段集合。利用范围分析算法,就能在B+树上实现多维范围查询。由于精确的Hilbert范围分析具有较大的时空复杂度,不能很好的适应查询的效率要求。因此对范围查询分析进行了改进,提出了降低分析精度的优化策略。实验表明优化策略能有效提高分析效率,实现高效的范围查询。Hilbert曲线是超立方的空间填充,因此矩形范围查询是其它类型查询的基础。在实现高效的矩形查询的基础上,提出了圆范围查询、最近邻查询、K近邻查询等算法。  基于Hilbert曲线相关算法和查询分析算法,设计并实现了一个多维数据处理引擎的原型系统。该系统在总体上采用了三层体系结构,包括底层数据库管理器和具有数据转换、数据维护等功能的中间层,以及最上层的用户接口。由于系统设计采用了开放的外挂模块的设计思想,因此,系统具有良好的可扩展性,同时可支持当前各种主流的数据库平台。利用原型系统,我们对三维位图和二维地理信息数据进行了实验。实验显示原型系统在查询效率上优于DBMS的组合簇索引和R树索引。
其他文献
放射性同位元素踪技术在中国油田测井领域中的应用是一个较新的课题,而目前研究人员对于示踪剂的数据管理还没有一个有效的和实用的方法.该"示踪剂数据分析与处理系统"是研究
随着数字时代的到来,企业积累的数据量呈爆炸性的增长。为了分析海量的历史数据,以辅助企业今后的决策,联机分析技术应运而生,一个完整的联机分析系统包括了数据仓库环境和联机分
计算机技术与半导体技术的飞速发展使得处理机速度、内存容量和存取速度、可运算的应用规模都有巨大进展.而在大容量存储技术方面,虽然存储容量和成本都有了改善,但是在数据
该课题是属于电子科学研究院资助的基金项目内容,目的是将调制域分析技术应用于跳频通信对抗之中.该文根据对无死区连续测频的要求,研究了ZDTC的基本原理和5种实施方案,并将
基于Web的电子商务自出现以来,至今已走过近十年的历程,但是其应用的广度和深度都未达到人们预期。居其原因,交易双方缺乏信任是其中一个重要原因。以往的信任管理技术强调以公
汉语信息处理中语义知识的表达是一个重点和难点,它直接关系到机器对语言的理解能力.该课题的主要目标是寻求一种方法对语义知识进行描述和存储,并能有效地把语义知识用于语
计算机网络正在向高速化、提供综合服务和提供有服务质量保障的方向发展.B-ISDN是正在发展的高速网络,其传输方式为ATM.该文在研究了ATM的交换原理和现有的各种ATM Multicast
该文分析并设计了一个在Internet上存取数据库的中间数据服务器MDS(Middle Data Server).MDS运行在Windows
该文首先分析了语音识别研究的历史和现状,针对汉语语音识别方法面临的困难,根据汉语语音的特点,提出了几种解决汉语语音识别问题的方法和算法.
该文分析了管理信息系统(MIS)的一些基本特征和传统的MIS系统开发方法,针对传统的MIS系统开发方法的存在的不足,将面向对象的思想方法引入到MIS系统的开发.并从不同角度,以面