面向XML文档的高效Twig查询动态索引机制的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户：lvtao_cn

【摘要】

：

因特网的快速发展,已深入到了全世界的每一个角落,其包含的信息量呈爆炸式增长,比如网页、用户交换文档、RSS新闻等,由于这些数据很难以某种固定的结构化方式表达,所以这些信

【作者】

：

李世川

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2012年期

【关键词】

：

XML文档动态索引半结构化数据 Cache数据库 Twig查询

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

因特网的快速发展,已深入到了全世界的每一个角落,其包含的信息量呈爆炸式增长,比如网页、用户交换文档、RSS新闻等,由于这些数据很难以某种固定的结构化方式表达,所以这些信息多以半结构化形式展现。由于这种松散的结构,使得大量用户更青睐于使用半结构化数据,以至于其在现实世界中所占比例越来越大。面对网络时代信息的爆炸式增长,海量半结构化信息的产生速度和传播速度已经远远超过了人们的处理能力。现在,XML已成为互联网上数据的表示和交换的事实上标准。　　半结构化数据以XML为主要代表。XML结构数据具有很好的表现力,在计算机中,其可以方便表达,以及被各种软件识别和利用,同时,人们也更能从中直接理解这些信息。所以无论对于今天、还是明天,XML半结构化数据格式都表现出了强有力的生命力。关系数据库已经发展了几十年,无论其理论还是实践都发展到了非常成熟的阶段,但是对于XML之类的半结构化格式数据,表现出了不足的一面,主要表现在无法正确理解、有效存储、高效查询半结构化数据。所以,尽管XML半结构化数据可以方便和快捷的呈现在互联网中,但是如何能有效地存储这些半结构信息并且进行分析、处理等操作是需要考虑的问题。　　由于在Internet中,XML是被广泛应用的半结构化数据形式之一,所以各种处理XML的方法随之而产生,比如Xpath、Xquery等等。当Internet中XML数据增多的时候,常规的处理和存储方法已不再满足需要。由此,研究人员很自然想到应用数据库存储XML数据的方法。并经过多年的发展,产生了使用关系数据库中存储XML数据,以及只存储XML数据的原生数据库,或者两者相混合的方法。　　近年来,在XML查询处理中,查询效率一直是研究的重点。在这方面,XML索引的研究是一个重点方向。尽管现在已有支持XML数据处理的数据库,但如果没有索引的支持,其查询处理性能将是很低的。　　本文主要针对目前XML查询处理效率不高,对现有的XML索引技术深入地进行研究、并加以改进,提出了改进方法。主要工作包括:　　1、全面分析现有的XML技术,包括XML技术的发展、XML模式、XML的查询方式,包括Xpath和Xquery,XML数据库的情况,并深入研究了现有的XML的索引技术,比较了多种索引的优缺点。　　2、在深入研究现有的XML索引技术基础之上,本文提出了一种动态索引的算法,其为了更有效支持在XML查询中的Twig查询。本文提出的XML动态索引是基于已有的DataGuides索引和Dewey编码,在其基础之上提出了XML索引Cache机制,缓存部分频繁查询的结果,以提高XML查询速度效率,特别是XML查询中经常会遇到的。Twig分支查询。针对本文提出的XML索引Cache机制,对各种查询提出了相关的算法,以有效利用XML索引Cache机制。同时,本文提出的XML索引Cache是逐步建立的过程,其会根据用户在查询过程中逐步调整,以达到频繁更新的目的,同时,也节省了其初期建立XML索引Cache的时间和占用的磁盘空间。　　3、针对本文提出的XML动态索引机制和相关算法,基于Java和Jdom编程环境加以实现,并进行了相关实验。根据不同大小的XML文档,分别进行实验,对其得出的实验结果数据进行比较。得出相关结论,本文提出的XML索引Cache占用磁盘空间相对较小,增长缓慢,对比其它的查询方法,比如在没有索引的情况和有DataGuides索引的情况下,基于XML索引Cache机制的查询效率得到了有效的提高。这种查询在XML文档的单分支查询中效果还不太明显,但在XML文档中的。Twig查询,其大大提高了查询效率,减少了查询处理时间,主要原因在于其减少了查询中的Join操作和减少了不必要的扫描中间结果。最后得出了本文提出的高效Twig查询动态索引机制和相关算法的先进之处。

其他文献

面向小作业并行编程框架的关键技术研究

随着海量数据时代的来临,分布式数据处理系统己成为海量数据处理的解决方案。针对不同的应用场景,学术界和产业界推出了多个并行编程框架。通过对不同的并行编程框架研究分析

学位

分布式内存资源管理小作业并行编程框架处理逻辑数据存取

基于本体的语义报表系统的研究与实现

随着计算机时代的到来和信息技术的快速发展,企业信息化成为企业在竞争中发展进步的必然选择。报表是企业进行数据整理、格式化和数据展现的一种有力手段。报表可以为用户提

学位

报表本体语义层报表设计器

嵌入式伺服系统调试工具的研究与实现

传统示波器的调试方法不利于伺服系统的现场测量和测试，如果个人PC机能够做为调试工具，将使伺服系统的调试更加的方便。伺服驱动器PID参数设置对系统的各项性能指标具有重要影

学位

伺服系统调试工具PID智能调整算法USB驱动BP神经网络

基于Android的MPDP实现方式的研究与应用

Android是一种以Linux为基础的操作系统,主要用于便携设备。一经推出,便凭借其免费与开源的特性迅速抢占市场。2011年8月,Android操作系统更是在全球智能手机操作系统的市场

学位

移动互联网AndroidMPDPAPN网络切换

内容中心网络的缓存管理研究

近些年来,互联网已经从资源共享的工具转变为海量信息分发与获取的平台,人们更加关注内容是什么,而非内容在哪儿。为满足这一趋势,内容为中心的网络被提出,而缓存功能的加入

学位

内容中心网络缓存管理拓扑结构替换次数传输效率

Web服务QoS管理框架的研究与实现

随着互联网技术的快速发展,Web服务技术无论在研究领域还是网络应用领域都备受关注,Web服务的广泛应用使得Web服务的数目也在快速的增加,功能相同或者相似的Web服务也会随之

学位

Web服务QoS信息采集属性管理评估管理框架

基于查询日志的Web搜索引擎缓存技术研究

Web搜索引擎为互联网网民获取信息提供了重要途径,商业搜索引擎每天接收数以亿计的查询请求,高效获取所需要的信息成为搜索引擎的重大挑战。本文利用搜索引擎查询日志研究搜

学位

信息检索Web搜索引擎查询日志缓存方法接纳策略

网络社区的问题路由模型及其消息系统的优化方法研究

计算机的普及和网络技术的发展,让人类能更便捷交流和通信。网络交互手段丰富多样,催生了许多类型的网络社区。网络社区指的是具有共同兴趣及需要的人们,利用网络通信的技术,

学位

网络社区问题路由模型消息系统客户端社区划分部署模式

网络实时视频监控系统中流媒体录像服务器的设计与实现

北邮东兴通信科技有限公司开发的网络实时视频监控系统,已实现网络实时监控的效果,满足了用户基本的监控需求。然而,在实际应用中,系统用户对于系统的功能提出了新的需求：录像

学位

流媒体录像服务器H.264文件格式私网穿透延时播放

环视系统的多画面处理算法研究与实现

近年来,人们对汽车驾驶的易用性提出了更高的要求,环视技术也慢慢地应用到汽车上。通过汽车环视系统,可以得到汽车上方的鸟瞰图,为泊车和行驶提供了极大的便利。　　汽车环

学位

环视系统标定精度特征点检测自动标注支持向量机多画面处理算法

面向XML文档的高效Twig查询动态索引机制的设计与实现

其他学术论文