XML数据查询优化技术的研究

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:linkageldap
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,XML已逐渐成为互联网上数据存储与交换的标准。但是,XML文件是以树状的结构来表示,每一次的数据查询都必须从树的根节点开始搜寻读取,透过每一层的标签名称逐层搜寻,直到找到所需的节点,因此对于数据的储存和查询,仍需要花费相当多的空间和时间成本,使得人们在查询数据的时候面临着很多困难,如何高效快速地查询,处理XML文档,已成为数据库领域一个重要的研究课题。本文对XML代数以及基于XML Schema的XPath查询技术和基于MP编码的XPath查询进行了研究,实现了查询优化的目的。主要研究内容如下:1.在现有代数优化的基础上,通过引入数据模型和XML语言相结合,尽量减少扫描原XML文档的次数,采用了启发式代数查询重写方法,利用关系代数的操作运算来重写XML文档来达到物理优化的目的。2.由于XML数据的灵活性,XPath查询时有许多语义不确定的时候,所以提出一种优化方法,在XPath表达式解析前进行确定化,用XML文档给定的Schema信息和要查询的XPath,建立两个信息的树有向图,利用图的乘积来进行优化,通过Xmark产生的数据验证优化前后的时间比是大于1的,证明达到优化的目的。3.由于XPath在查询时是一种树层的搜寻,每次都需从根节点开始,往特定轴线寻找每一节点,再对每一节点做节点测试,造成许多时间成本的浪费。因此,若能针对树状结构提出一种好的编码机制,完整记录树的结构及特性,保留节点在文件中的关系和顺序,利用这种编码机制对XPath中特定轴线查询,使其无须从根节点找起,即可有效查询到所要的节点。本文提出了一种基于MP编码的XPath查询方法,即每一节点的编码都是唯一,都包含节点的路径信息,以及节点的文件顺序。以XPath为基础,本研究利用MP编码法,给出9种轴线查询算法,储存节点的编码字典,用户查询数据时,只需透过数学除法和因式分解运算,即可快速查询到所要的数据,有效降低查询成本。
其他文献
UPFC是一种潮流控制的装置。它综合了许多柔性交流输电系统(FACTS)器件的灵活控制手段,是一种功能相对很强的FACTS系列器件。随着半导体制造技术和电子设计自动化技术的不断发展,UPFC控制系统设计也加快了步伐。本文首先对国内外对UPFC的现状及其控制算法进行了研究,针对目前输电系统存在的损耗大、传输率低的问题,采用开关损耗最小PWM算法进行UPFC控制系统的设计。然后,在给出UPFC逆变控制
随着程序设计竞赛领域内的许多研究,包括在线竞赛平台的开发和竞赛选手训练辅助系统的研究等等,这样一些需求或设想被提了出来,它们都希望机器可以自动化地处理程序设计试题
近年来,随着生物信息学、电子商务等行业的迅速发展,在这些领域积累了大量高维数据,利用数据挖掘技术能够在这些数据中找到许多对科学研究和市场营销起到重要作用的有价值的
当前,网络安全形势的日益严峻,而防火墙作为一种被动的防御工具有其自身的缺点,作为防火墙的重要补充的入侵检测系统越来越受到人们的关注。由于病毒对生物体所构成的威胁情
随着乌鲁木齐电网的发展,各类工业电器及电力电子器件的应用日益广泛。近年来尤其是钢铁企业炼钢电弧炉及轧机容量的增大,使得各种非线性负荷注入电网的谐波越来越多。谐波对电
随着在航空器和发动机上所用的机载系统和设备对软件的使用迅速增加,为满足适航性要求,航空无线电技术委员会(RTCA)制定了DO-178B标准。虽然DO-178B在国内民航领域越来越受重视
模型库是利用规范的形式存储模型以及相关信息的场所。模型库提供模型的定义、特征信息及模型代码,是模型元素的集合。本文首先对仿真模型库的概念和结构进行总结分析,通过对
数字化技术的发展和成熟,使越来越多的数字作品通过Internet进行传播,它们可以低成本、高速度地被复制和传播,但这些特性也容易被盗版者所利用,使得网络信息安全隐患正全方位
随着信息技术的发展及信息系统在社会生活各领域日益广泛且深入的应用,信息安全成为信息技术研究当中不可或缺的一部分,并越来越显示出它的重要性。操作系统的安全是整个信息
随着信息产业的不断发展,网络已经成为人们工作生活中不可缺少的重要工具。Web也随之成为人类获取信息的主要来源。Web中的数据正以每天新增一百万个页面的速度增长。到目前