基于下推转换机的XML流数据处理方法

来源 :北京工业大学 | 被引量 : 0次 | 上传用户：WW630228937

【摘要】

：

近十来年,互联网技术得到了快速发展,互联网用户不断增加,网络应用得到迅速普及,网络数据的增长速度超乎想象。XML语言(可扩展标记语言)作为互联网上数据交换和共享事实上的

【作者】

：

李文珠

【机构】

：

北京工业大学

【出处】

：

北京工业大学

【发表日期】

：

2015年01期

【关键词】

：

XML 流数据 XPath 自动机下推转换机

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近十来年,互联网技术得到了快速发展,互联网用户不断增加,网络应用得到迅速普及,网络数据的增长速度超乎想象。XML语言(可扩展标记语言)作为互联网上数据交换和共享事实上的标准,已经广泛应用于各种互联网平台。XML也成为当前一种十分常用的数据存储格式。众多领域都使用XML格式存储其网络数据信息。很多情况下,单个XML文档的体积已经远远超出有限的计算机内存的大小。如何从大量的XML数据中获得用户需要的信息成为人们必须解决的问题。传统的将整个XML文档加载到内存中,然后再对数据进行查询的办法显然已经无法对这种大小远超过内存容量的XML数据进行处理。因此,另一种形式的XML数据—XML流数据逐渐获得了研究者的普遍关注,同时流数据方面的特点也对查询处理提出了新的挑战。XML流数据具有以下特征:数据以标签(tag/token)为单位实时到达;数据进入处理系统的顺序无法控制;数据可能是持续到来的,并且有可能不会结束。处理XML流数据的系统一般使用XML解析器对数据进行解析,使用XPath或XQuery来表示用户的查询需求。XML流数据处理系统会在处理完某个数据元素之后便将其转发或者丢弃,以减少数据对内存的占用。在如今的数据研究领域,找到一种高效地查询和处理XML流数据的方法具有重要意义。对XML流数据进行处理的要求是在计算机内存有限的情况下,对持续的查询给出高效实时的响应。目前,已经有不少处理XML流数据的方法。然而现有的XML流数据处理方法尚不能满足人们对数据的处理需求。它们或无法支持丰富多样的查询需求,或无法对查询给出实时高效的响应。本文针对现有的XML流数据处理方法的缺陷,提出了一种新的XML流处理方法。该方法以下推自动机为基础,主要针对XPath语言表示的用户查询。该方法为XPath语言提供了强有力的支持,不仅能够处理查询中的祖先后代关系和双亲子女关系,也能够支持多层嵌套的谓词和多重并列谓词,覆盖了XPath语言的核心功能。该方法以XPath中的查询步为基本设计单元,不会出现自动机状态数暴增的情况。同时该方法在一次遍历数据的前提下,能够找到所有查询结果,具有较高查询效率。该方法弥补了前人处理方法的不足,它具有高效、实时的特点,能够更好的满足人们对海量XML数据的处理需求。

其他文献

嵌入式系统的系统级低功耗技术研究与实现

动态电压调度(Dynamic Voltage Scaling,DVS)是一种有效的分布式嵌入式系统的系统级低功耗技术.这种技术通过降低系统中的处理部件的频率和电压,使得处理部件的功率显著下降,

学位

动态电压调度分布式系统系统级低功耗蚁群算法近似算法在线电压调度

自主计算的自优化问题研究

为了解决软件复杂性危机,学术界和产业界提出了自主计算的概念.自主计算的核心是使计算机系统具有自管理能力,包括自配置、自优化、自恢复和自保护.虽然自主计算描述了美好的

学位

自主计算多目标优化进化计算多主体系统分层强化学习

可信的作业管理系统——DCJM

随着社会生产力的持续进步,人们对高性能计算的需求与日俱增,而机群已经牢牢地占据了HPC体系结构的主流地位.网络攻防技术的激烈转换,使得通过Internet共享资源的计算中心所

学位

HPC机群作业管理系统可信计算模型求解

无线自组网组通讯协议研究

无线自组网由于其鲁棒性、抗毁性、适应环境能力强等特点,被广泛用在国防战备、军用通信、紧急救灾等不需要基础通信设施或者只需要临时通信的环境.随着移动通信和移动终端技

学位

无线自组网组通讯跨层协议仿真

基于龙芯2E的Linux发行版研究与实践

本文从Debian GNU/Linux操作系统的基本概念和设计实现出发,研究了在龙芯处理器平台上Linux发行版的开发过程和实现方案,对实现过程中软件包编译和管理环节提出了优化方案和

学位

龙芯2EDebian发行版自动编译系统软件包仓库管理编译依赖

基于自然语言处理的主观题自动评分系统的研究与实现

在目前的考试系统中,由于自然语言处理和人工智能技术的限制,具有通用性和实用性的主观题自动评分系统还没有出现。国内现有的系统对主观题的处理大多依然是通过教师的人工阅

学位

自然语言处理知网词语相似度句子相似度

基于对象存储的机群文件系统数据通路关键技术研究

近年来机群系统凭借良好的可扩展性、可用性以及极高的性价比成为高性能计算机和超级服务器的主流结构.然而,磁盘性能的改善远远落后于CPU处理速度、内存性能、互连网络带宽

学位

机群文件系统对象存储数据块分配全局调度数据高可用

曙光5000ASIC物理设计验证方法研究

在现代超大规模集成电路中,每个芯片中都包含上百万个晶体管和互连线,其中任何缺陷都可能导致整个芯片设计失败.在后端物理设计中,要经历综合、布图规划、布局、布线等步骤,

学位

物理设计验证静态时序分析形式验证超大规模集成电路微处理器

HotSpot虚拟机在“龙芯”Linux系统上的移植与性能优化

在"龙芯"产业化过程中,"应用软件库"不丰富是一个重要的问题,对于用c/c++等平台相关语言编写的应用程序,移植和维护都需要大量的人力物力,只要"龙芯"产品投入市场,移植和维护

学位

HotSpotJava虚拟机龙芯解释器JIT编译器Linux系统性能优化

基于动态污点分析的二进制程序缓冲区溢出的研究

软件安全漏洞的存在及其带来巨大的危害使得软件漏洞检测技术的研究日益重要。其基本思想是通过对待测试软件程序采取不同的技术手段,分析程序的源代码、二进制代码或在对应

学位

二进制程序漏洞挖掘动态污点分析动态二进制插装多路径遗传算法

基于下推转换机的XML流数据处理方法

其他学术论文