论文部分内容阅读
数据集成是运用一定的技术手段将分布、自治、异构的多个局部数据源中的数据按一定规则组织成为一个有机整体的过程。数据集成是一种现实需求,用户需要通过数据集成获得一个一致的、便于访问的数据集合。数据集成方法可以分为数据转换方法、数据仓库方法和数据联邦方法三类。数据转换方法通过转换工具将一个数据库中的数据复制、转换为另一个数据库中的数据。数据仓库方法通过对异构数据源中的数据进行分析、转换和装载,从而实现数据的集中存储和访问。数据联邦方法通过建立对分布数据源的联邦访问实现数据集成。
XML是W3C推荐的一种元标记语言规范。将扩展性强、可自描述、标准化的XML运用于数据集成领域就形成了基于XML的数据集成方法。基于XML的数据集成方法是对传统数据集成方法的改进。它的最大特点是集成过程中数据流的标准化。
本文提出了一种适合在企业范围内建立全局应用的基于XML的数据集成系统框架XDIFrame(XML-basedDataIntegrationFramework),它结合了数据仓库方法和数据联邦方法的优点,从原始数据源抽取数据建立XML存储库进行数据发布,并在此基础上建立全局联邦查询。
同时,本文提出了一种独立于具体数据库管理系统的基于XTemplate模板的XML查询方法。基于模板的XML查询是从结构化数据源获取XML数据常用的一种方法。但是,各数据库管理系统提供的基于模板的XML查询语言语法各异,访问多个异构数据源时需要按照各自语法设计多个模板文件。本文提出的基于XTemplate模板的XML查询方法独立于具体的数据库管理系统,查询不同的异构数据源时可以使用语法统一的模板文件。更重要的是,还可以为没有内置XML查询支持的结构化数据源提供对XML查询的支持能力。
最后,本文介绍了审判数据集成系统实现过程中包括审判标记语言的定义、XML包装器的实现和查询中间件的建立等关键技术。审判数据集成系统的主要任务是对江苏全省范围内的法院综合信息系统中各种数据进行集成。该系统基于案件信息和公文信息等主题建立XML存储库,并在此基础上建立全省范围内的虚拟数据集合以满足查询、统计、分析等数据处理需求。