基于SLCA的XML关键字查询研究与改进

来源 :山东大学 | 被引量 : 0次 | 上传用户:Spring_880916
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
XML(Extensible Markup Language)即可扩展的标记语言,是一套定义语义标记的规范,其目的在于定义计算机和人都能方便识别的数据类型。随着网络应用的快速发展,XML已经被广泛应用到Internet智能信息检索、数字图书馆、数据集成、Web Service等领域,这使得XML类型的数据已成为主流的数据形式,从XML数据中提取有用的信息也就成为了当前的研究热点。目前,XML查询根据查询请求描述特点的不同,可概括为两大类查询模式:XML结构化查询和XML关键字查询。XML结构化查询要求用户必须掌握XML文档结构及查询语言,这对用户来说有着较大的难度,不易使用。而XML关键字查询则相对比较灵活,它只需要用户提供简单的关键字信息,而无需懂得任何查询语言或文档结构就可方便使用,因此该模式被广泛采用,有着重要的研究价值。XML关键字查询的基本问题是求解满足关键字组合语义的最紧致片段,求解最紧致片段算法的性能及对最紧致片段的定义决定了XML关键字查询的性能和准确率。目前,对最紧致片段的最好定义是SLCA,对SLCA求解算法的研究也较为成熟。因此,本文围绕SLCA展开,分析SLCA求解算法性能上的缺点并提出新的改进算法,之后通过实验进行验证。实验过程中发现,尽管算法性能有较大提高,但结果集中存在较多并非期望的节点,因此,本文又对SLCA的概念进行扩展,提出同源SLCA(Heterogeneous SLCA,HSLCA)的概念,HSLCA在SLCA的基础上引入标签信息,能够显著提高XML关键字查询的准确率。在改进SLCA求解算法性能方面,本文在分析已有经典算法基础上展开,做出了以下创新:一、提出基于并查集的SLCA求解算法USSSA。针对求解SLCA性能最优的LISAⅡ算法空间复杂度较大,占用存储空间较多的缺点,USSSA算法使用层次编码进行求解,算法的空间复杂度明显降低,在理论求解时间与LISAⅡ基本相同的情况下,使用了更少的存储空间。二、提出基于叠加树思想的SLCA求解算法TREE_Set。针对LISAⅡ算法在查询关键字较少时性能较差的缺点,TREE_Set以树的方式求解SLCA,当查询关键字较少时,TREE_Set比LISAⅡ具有更好的性能。同时,这种算法具有很强的直观意义,便于理解,易于实现。在提高XML关键字查询准确率方面,本文在分析SLCA概念本身不足的基础上展开,所做工作和改进有:一、对SLCA的概念进行改进,提出新的最紧致片段定义同源SLCA(HSLCA),HSLCA在SLCA的基础上引入标签信息来判断查询关键字节点之间的相关度,提高XML关键字查询准确率。二、对求解SLCA的LISAⅡ算法进行扩展,得到求解HSLCA的算法HLISA。HLISA较LISAⅡ在时间复杂度上并没有数量级的增加,理论上拥有同样优越的性能。本文对XML关键字查询中最紧致片段SLCA进行深入研究,通过实验验证对SLCA的改进提高了XML关键字查询的性能和准确率,对用户有着重要的现实意义。
其他文献
开展月球探测工作是我国迈出航天深空探测第一步的重大举措。实现月球探测将会使我国将实现深空探测零的突破。在真实应用月球探测方案之前,如若使用可视化仿真技术对其方案
早期的经典关系数据库理论,在数据库应用中发挥了巨大的作用。随着数据库理论的深入研究和发展,人们将经典关系数据库理论推广与改革得到了非经典关系数据库理论。非经典关系
随着企业的信息化建设以及网络的发展和普及,大量的异构数据源应运而生。为了更好地利用这些资源,人们迫切需要解决这些异构数据源的集成问题。异构数据源集成的主要任务就是屏
领域工程是实现系统化软件复用的关键技术,它为特定领域建立可复用的软件资产,并提供了复用这些软件资产的机制和方法。论文基于领域工程的研究方法,对网络评审进行了领域分
文字识别是集模式识别、图像处理与文字处理技术于一体的一种新技术,是模式识别和人工智能领域的一个研究方向.目前,西方文字和汉字的印刷体识别经过了多年的探索和实践,已经走
随着信息技术的发展以及计算机和通信系统的普及,人们对网络的依赖程度越来越高,如网上银行、电子拍卖、电子招标和电子现金交易等。因此,对如何保证信息在产生和传输过程中
ACM/ICPC国际大学生程序设计竞赛在大学生中已经日益普及,网上的题库也日益增多,参加比赛的学生往往需要花大量的时间磨练自己的编程技艺,积累解题经验,然后争取在比赛中取得
近年来,随着全球气候变暖以及环境污染的不断加剧,人们对环境问题越来越关注,降低能源消耗、减少碳排放逐渐引起大家的重视。物流运输业作为我国碳排放的主要行业之一,面临着巨大
该影像工作流管理系统是在前台具有影像处理功能的基础上,针对柜面交易的小额贷款或小额支票交易业务,开发的基于工作流内容管理的系统。 论文以工作流理论为基础,在J2EE开发
随着NGN技术的发展,VoIP业务作为一种网络服务呈现出广阔的应用前景,VoIP是通过分组交换网络传输语音、视频和数据等业务,可以满足人们日益丰富多彩的需求。实现VoIP系统涉及