基于下推转换机的XML流数据处理方法

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:WW630228937
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近十来年,互联网技术得到了快速发展,互联网用户不断增加,网络应用得到迅速普及,网络数据的增长速度超乎想象。XML语言(可扩展标记语言)作为互联网上数据交换和共享事实上的标准,已经广泛应用于各种互联网平台。XML也成为当前一种十分常用的数据存储格式。众多领域都使用XML格式存储其网络数据信息。很多情况下,单个XML文档的体积已经远远超出有限的计算机内存的大小。如何从大量的XML数据中获得用户需要的信息成为人们必须解决的问题。传统的将整个XML文档加载到内存中,然后再对数据进行查询的办法显然已经无法对这种大小远超过内存容量的XML数据进行处理。因此,另一种形式的XML数据—XML流数据逐渐获得了研究者的普遍关注,同时流数据方面的特点也对查询处理提出了新的挑战。XML流数据具有以下特征:数据以标签(tag/token)为单位实时到达;数据进入处理系统的顺序无法控制;数据可能是持续到来的,并且有可能不会结束。处理XML流数据的系统一般使用XML解析器对数据进行解析,使用XPath或XQuery来表示用户的查询需求。XML流数据处理系统会在处理完某个数据元素之后便将其转发或者丢弃,以减少数据对内存的占用。在如今的数据研究领域,找到一种高效地查询和处理XML流数据的方法具有重要意义。对XML流数据进行处理的要求是在计算机内存有限的情况下,对持续的查询给出高效实时的响应。目前,已经有不少处理XML流数据的方法。然而现有的XML流数据处理方法尚不能满足人们对数据的处理需求。它们或无法支持丰富多样的查询需求,或无法对查询给出实时高效的响应。本文针对现有的XML流数据处理方法的缺陷,提出了一种新的XML流处理方法。该方法以下推自动机为基础,主要针对XPath语言表示的用户查询。该方法为XPath语言提供了强有力的支持,不仅能够处理查询中的祖先后代关系和双亲子女关系,也能够支持多层嵌套的谓词和多重并列谓词,覆盖了XPath语言的核心功能。该方法以XPath中的查询步为基本设计单元,不会出现自动机状态数暴增的情况。同时该方法在一次遍历数据的前提下,能够找到所有查询结果,具有较高查询效率。该方法弥补了前人处理方法的不足,它具有高效、实时的特点,能够更好的满足人们对海量XML数据的处理需求。
其他文献
动态电压调度(Dynamic Voltage Scaling,DVS)是一种有效的分布式嵌入式系统的系统级低功耗技术.这种技术通过降低系统中的处理部件的频率和电压,使得处理部件的功率显著下降,
为了解决软件复杂性危机,学术界和产业界提出了自主计算的概念.自主计算的核心是使计算机系统具有自管理能力,包括自配置、自优化、自恢复和自保护.虽然自主计算描述了美好的
随着社会生产力的持续进步,人们对高性能计算的需求与日俱增,而机群已经牢牢地占据了HPC体系结构的主流地位.网络攻防技术的激烈转换,使得通过Internet共享资源的计算中心所
无线自组网由于其鲁棒性、抗毁性、适应环境能力强等特点,被广泛用在国防战备、军用通信、紧急救灾等不需要基础通信设施或者只需要临时通信的环境.随着移动通信和移动终端技
本文从Debian GNU/Linux操作系统的基本概念和设计实现出发,研究了在龙芯处理器平台上Linux发行版的开发过程和实现方案,对实现过程中软件包编译和管理环节提出了优化方案和
在目前的考试系统中,由于自然语言处理和人工智能技术的限制,具有通用性和实用性的主观题自动评分系统还没有出现。国内现有的系统对主观题的处理大多依然是通过教师的人工阅
近年来机群系统凭借良好的可扩展性、可用性以及极高的性价比成为高性能计算机和超级服务器的主流结构.然而,磁盘性能的改善远远落后于CPU处理速度、内存性能、互连网络带宽
在现代超大规模集成电路中,每个芯片中都包含上百万个晶体管和互连线,其中任何缺陷都可能导致整个芯片设计失败.在后端物理设计中,要经历综合、布图规划、布局、布线等步骤,
在"龙芯"产业化过程中,"应用软件库"不丰富是一个重要的问题,对于用c/c++等平台相关语言编写的应用程序,移植和维护都需要大量的人力物力,只要"龙芯"产品投入市场,移植和维护
软件安全漏洞的存在及其带来巨大的危害使得软件漏洞检测技术的研究日益重要。其基本思想是通过对待测试软件程序采取不同的技术手段,分析程序的源代码、二进制代码或在对应