论文部分内容阅读
随着网络技术的发展和信息化的推进,Web上的信息在不断增加和深化,按其所蕴含信息的深度可以被划分为浅网(Surface Web)和深网(Deep Web)两类。相对于Surface Web,Deep Web中的信息具有质量高、体量大、增长快、领域性强等优点。为此构建一个Deep Web信息集成系统来高效地抽取和挖掘DeepWeb信息,一直以来都是Deep Web信息集成领域研究的热点。 本文首先对Deep Web信息集成系统的基本框架以及关键的技术进行了研究和介绍,并基于Deep Web信息集成的研究现状,分析了在模式演化下已有的Deep Web信息集成系统中存在的主要问题。然后,在此基础之上借鉴已有研究成果,对信息集成系统中的接口集成和查询处理两方面进行了较为详细的研究,具体的研究内容如下: 1.模式演化导致本地大量查询接口信息发生变动和失效,从而使得传统的接口集成方法所获得的全局查询接口的查询能力下降或不稳定,为此,提出了一种基于演化版本的Deep Web查询接口维护方法以及集成框架。首先,提取出反映Deep Web查询接口查询能力的特征信息,包括入口信息和模式信息,并将其构成二元组表示查询模型。其次,引入时间参数来表示不同时刻的查询模型版本,并用查询属性图刻画查询模型的不同版本的演化过程。然后,通过对查询属性图的游历分析,提取出查询模型中变化比较活跃的属性集,以此来构建最优查询路径,并进一步生成最优查询语句。接着,通过发起最优查询语句以最小的代价抽取出查询模型在深网中的变动信息,据此更新本地的当前版本信息,演化出下一个版本,实现对本地查询接口的信息维护。最后,将该方法应用在传统的集成系统中,提出了一个基于演化版本的Deep Web信息集成框架(简称EVIS框架),并通过实验验证了该方法在提高集成系统查询能力方面的有效性。 2.模式演化以及本地查询接口信息的维护将导致已有的模式映射关系发生变动,从而使得已有失效映射检测和重构映射关系的处理方法的效率以及查询转换的准确率不高,为此,提出了一个基于映射权重的查询接口选择方法以及集成框架。首先,采用三个匹配器来进行查询接口属性的模式匹配。然后,通过基于相似度矩阵的属性聚类构建全局属性与成员属性之间的映射关系。接着,从全局属性与成员属性之间的映射关系中提取出映射权重,来实现最终多个本地查询接口的选择,达到基于动态映射关系的全局查询请求转发的目的,实验结果表明该方法提高了查询接口转换的准确率,降低了Deep Web网络环境变化对查询处理的影响。最后,在EVIS框架的基础上提出了一个基于映射权重的Deep Web信息集成框架(简称MWIS框架),实验结果表明MWIS框架进一步提高了集成系统的查询能力。