论文部分内容阅读
随着计算机技术、传感技术及通信技术的持续创新和发展,科学研究过程中产生的科学数据呈现爆发式增长。科学数据的共享对知识发现和科研创新具有重大的意义。为了实现科学数据资源整合和共享,相关机构采用语义网中RDF描述语言作为科学数据的统一格式,按照关联数据的原则建立科学数据集的联系。随着越来越多的科学数据加工转换为关联数据,针对这些大规模关联数据的存储和高效查询已经成为重大挑战。 基于中国科学院计算机网络信息中心汇聚的生命科学领域数据,本文设计了一种RDF数据管理系统,提供该领域关联数据查询服务。该平台通过构建RDF数据库集群来解决海量数据的存储问题,同时基于数据库的SPARQL端点实现一种联合查询系统,以满足关联数据应用的查询需求。本文的主要研究内容与贡献为: 第一,提出了大规模关联数据可扩展性存储管理方案。传统以单机数据库作为存储系统的存储方式遇到瓶颈,无法适应RDF数据的快速增长。论文通过调研对比选择一种开源的数据库,构建数据库集群并按照基于命名图存储的策略管理大量的关联数据。 第二,实现了关联数据的高效查询和访问。以往只能在单台机器查询数据的方式能够检索的数据范围有限,在关联数据的关联查询应用中,涉及的数据集多且量大,本文根据SPARQL查询的执行流程设计了联合查询的架构,完成了SPARQL的跨机器查询过程中的数据源选择,查询三元组模式的分组以及联合查询计划中连接操作的基于代价估计的顺序优化和绑定连接执行等功能设计,并实现了基于web的查询访问。 在完成RDF数据管理关键技术研究和设计后,本文实现了原型系统,并通过实际部署验证了平台的可用性,该平台满足了大规模关联数据的可扩展性存储和有效地查询需要。