论文部分内容阅读
XML(eXtensible Markup Language)已成为一种网上数据交换和信息集成的工具。随着XML应用的普及,对XML文档查询的要求也就越来越高。本文对相关领域遵循多DTD的XML文档查询方法开展研究,主要解决以下几个方面的问题: 1) 如何使用户在构造XML查询时无须了解待查XML文档的结构?2)如何实现对相关领域遵循不同DTD的多类XML文档的统一查询?3)如何实现XML文档的结构相似性查询? 具体地,本文的主要研究结果有: 1.基于多DTD的XML索引方法。为了提高XML路径查询的效率,人们致力于XML索引的建立。本文提出一种XML索引方法DBXI(DTD-Based XMLIndexing),其中心思想是发掘DTD中隐含的结构信息,提高XML文档路径查询的效率。DBXI的主要特点是:1)采用了新的XML编码方法,使XML文档中每个元素/属性的编码携带了相应的DTD结构信息;2)对一个由N个元素/属性组成的有一个谓词约束的路径表达式,DBXI处理每个XML文档,由同类系统XISS所需的至少N-1次结构连接运算,降低至0次或2次结构连接运算;3)如果查询路径在待查XML文档中不存在正确的匹配结构,DBXI能够在比国际上的Sphinx和XISS等XML索引方法较短的时间内给出无查询结果的判断。实验表明,对莎士比亚戏剧和DBLP等XML数据集,DBXI的路径查询效率较Lore、Sphinx和XISS有不同程度的提高。 2.基于多DTD的XML查询方法的研究。为了实现对相关领域基于不同DTD的多类XML文档的统一查询,本文对“候选DTD定位”、“候选DTD与用户查询结构的距离排序”等技术进行了详细讨论。在对候选DTD与用户查询结构的距离进行接近线性时间复杂性的排序运算时,提出了以“树间亚距离排序”代替“树间距离排序”的观点,即以查询结构与查询在候选DTD中的上下文之间的距离,代替查询结构与候选DTD之间的距离参与排序,提高了候选DTD排序的准确性。 3.原型系统实现。本文给出了基于多DTD的XML查询的原型系统Smart XMLQuery。它利用上述技术,不仅能实现与待查文档结构完全匹配的查询,而且能实现与待查文档结构达到一定相似度的查询。I 摘要g 4.基于多DTD的XML数据的关系数据库存储。在基于多DTD的XML索引方法【的基础上,本文提出了一种利用DTD的结构信息在关系型数据库系统中存储Z XML文档的方法。与J.Shanmugasundaram、Yn Men山in等人提出的基于 DTD!的XML关系数据库存储方法相比,本文提出的存储方法具有如下特点:1)文g 档结构的变化,不需要修改相应的关系模式定义;2)不同DTD的XML文档【可以保存在相同模式的关系表中。仅需两张关系表,就能存储所有的DTD和.XML数据,所以,适用于多DTD的应用环境;3)可以在线性时间内重组数据 库中的XML文档。