XML数据流上基于关键字的语义及Top-K查询研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:sms126
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
XML逐渐成为了Internet上数据表示和数据交换的新标准,并且已经出现了大量与XML数据流相关的应用。已有的XML上的基于关键字的查询研究主要是针对XML文档和XML数据库。随着XML数据流相关应用的大量出现,XML数据流上基于关键字的查询已成为一个新的研究方向。在XML数据流上执行关键字查询时,应该尽可能地返回较有意义的查询结果,即在查询过程中考虑部分语义,并通常需要进行Top-K处理。   由于基于路径的XML上的查询比较复杂、且对用户的要求较高,研究者们提出了基于关键字的查询,为用户提供了一个简单、方便、易用的查询接口。但大量的工作都是在XML文档及XML数据库上的,由于XML数据流自身的特点,这些XML上的研究工作在XML数据流上并不适用。本文针对XML数据流,研究在其上的关键字语义查询及相应的Top-K处理。论文主要工作如下:   1.为了表示较有意义的查询结果,文中给出了有意义、且相关的最小公共祖先节点(MRLCA)的定义,并将其作为查询结果的根节点。MKLCA是一个实体节点,具有一定的实际意义,且其下的关键字匹配节点之间具有高度的关联性。同时指出,在查找MRLCA的过程中,利用已知的DTD结构,对节点进行分类,可以更加有效地判断一个查询结果中各个关键字匹配节点之间是否是相互关联的。   2.给出了有意义、且节点相互关联的连接树(MRCT)的定义,并将MRCT作为关键字查询的查询结果。MRCT是一棵以MRLCA为根的子树,其中包含了各个关键字匹配节点,此外还包含了实体节点的属性,以使得查询结果更有实际意义。   3.给出了一个有效的MRLCA提取算法,此算法根据给定的关键字集合,使用基于栈的方法从XML数据流上查找得到各个关键字匹配节点,然后检查每组关键字匹配节点的相关性,并提取MRLCA。根据MRLCA,再生成相应的MRCT作为候选结果,为下一步的Top-K处理作准备。   4.给出了三个影响查询结果排序的因素,并在此基础上,采用基于欧氏距离的处理方法,综合考虑此三方面因素,在结果集上进行Top-K处理,以取得与关键字查询最相关、且有意义的前K个结果。
其他文献
随着微型机电系统(Micro-Electro-Mechanical System,MEMS)、无线通信、数字电子学等技术不断地发展,基于无线传感器网络(Wireless Sensor Network,WSN)的定位技术孕育而生。正
离群点检测是数据挖掘领域研究的重要问题之一,与其他数据挖掘研究的任务不同,离群点检测着力于从数据集中发现与其他数据显著不同的一小部分对象。目前离群点检测已经在许多领
三维网格分割(简称网格分割)的目标是采用计算机自动地将三维网格模型分割成为若干有意义的部件。但“有意义”本身并非良定义、可量化的概念,这是实现三维网格自动分割的困难
随着信息技术的发展,互联网信息不断增加,其中有很多有益的知识,也有很多有害的信息,如色情、恐怖主义等。对互联网信息进行管理是一个快速增长的的需求。   当前市场上存在很
随着计算机图形学的发展,需要对复杂场景渲染出极具真实感图像的应用越发增多。这就要求不仅要考虑来自光源的直接光照,还需要考虑来自其它物体表面因反射、折射等产生的非直接
21世纪,Internet经历了爆炸式发展,已经在人类生活中扮演着越来越重要的角色。Web应用不再仅仅是从前的展示静态信息的功能,而是要求具有实时、动态处理信息交互的功能。因此
学习分类系统是结合了进化计算和强化学习的一种机器学习技术,它是一种自适应的规则产生式系统,能够动态感应环境、模拟认知,利用环境反馈评估种群中的分类器(规则)并通过遗传算
目前,随着网络技术的飞速发展和数字传输技术的应用的普及,原来在数据通信网中被视为应用“瓶颈”的带宽和服务质量等问题一一得到解决或改善。但另一方面,电信业竞争的逐步
学位
软件测试在软件开发过程中有着越来越重要的地位,它贯穿于整个软件开发过程。而测试用例的设计与生成是软件测试过程中的重点和难点所在。随着面向对象技术的广泛应用,使得基于
学位
数字媒体是以数字形式表示的信息,包括计算机生成的文本、图形、视频、音频以及动画。随着多媒体通信技术与经济的迅速发展,数字媒体越来越多成为传媒的首选形式,加强了人们