面向科学数据关联查询的RDF数据管理技术研究与实现

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:backdoor6402415
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术、传感技术及通信技术的持续创新和发展,科学研究过程中产生的科学数据呈现爆发式增长。科学数据的共享对知识发现和科研创新具有重大的意义。为了实现科学数据资源整合和共享,相关机构采用语义网中RDF描述语言作为科学数据的统一格式,按照关联数据的原则建立科学数据集的联系。随着越来越多的科学数据加工转换为关联数据,针对这些大规模关联数据的存储和高效查询已经成为重大挑战。  基于中国科学院计算机网络信息中心汇聚的生命科学领域数据,本文设计了一种RDF数据管理系统,提供该领域关联数据查询服务。该平台通过构建RDF数据库集群来解决海量数据的存储问题,同时基于数据库的SPARQL端点实现一种联合查询系统,以满足关联数据应用的查询需求。本文的主要研究内容与贡献为:  第一,提出了大规模关联数据可扩展性存储管理方案。传统以单机数据库作为存储系统的存储方式遇到瓶颈,无法适应RDF数据的快速增长。论文通过调研对比选择一种开源的数据库,构建数据库集群并按照基于命名图存储的策略管理大量的关联数据。  第二,实现了关联数据的高效查询和访问。以往只能在单台机器查询数据的方式能够检索的数据范围有限,在关联数据的关联查询应用中,涉及的数据集多且量大,本文根据SPARQL查询的执行流程设计了联合查询的架构,完成了SPARQL的跨机器查询过程中的数据源选择,查询三元组模式的分组以及联合查询计划中连接操作的基于代价估计的顺序优化和绑定连接执行等功能设计,并实现了基于web的查询访问。  在完成RDF数据管理关键技术研究和设计后,本文实现了原型系统,并通过实际部署验证了平台的可用性,该平台满足了大规模关联数据的可扩展性存储和有效地查询需要。
其他文献
学位
分割是将图像细分为构成它的子区域或对象,分割的程度取决于需要解决的问题。在实际运用中,当感兴趣的对象被提取出来时,就停止分割。超出需要解决的问题的分割时没有意义的。图
本文主要研究三维医学图像中腹部血管的分割方法。  首先,提出了基于八元数矢量积表示定理与基于Clifford代数矢量积表示定理的两种三维区域生长算法用于分割腹主动脉血管。
随着互联网行业的快速发展,数据中心需要处理TB级别甚至PB级别的数据。在海量数据处理的驱使下,数据中心的扩展方式由纵向扩充方式到横向扩展方式转变。在这种背景下,众核架构具
近年来,随着计算机群体仿真方法的不断完善与发展,其应用也越来越广泛,涉及的领域也多种多样:包括模拟训练,计算机动画,影视特效以及公共安全辅助设计等。随着经济发展,越来越多的
随着移动互联网的飞速发展,手机病毒越来越猖獗。在庞大的利益面前,越来越多的黑客将目光锁定于移动互联网,手机安全面临着空前的挑战。在Android、iPhone、Windows Phone和S
移动自组网是一种自组织、无中心、不依赖现有基础设施的无线移动通信网络,具有自组织、快速组网、抗毁性和健壮性等优良特性,在军事和民用领域具有广泛的应用前景。泛在环境
网络虚拟化可以彻底解决现有网络的僵化问题,是实现未来网络架构的一种重要手段。网络虚拟化将传统的网络服务提供商ISPs分离成基础设施提供商InPs和服务提供商SPs,其中重点
随着计算机网络技术的迅速发展和其应用的日益广泛,XML已经成为网络上数据描述和数据交换的标准,得到越来越广泛的应用。如今,XML在越来越多得领域得到应用,XML数据量也日益增大,
学位