基于云计算平台的RDF存储与查询方法的研究与应用

来源 :北京大学 | 被引量 : 0次 | 上传用户:harddisk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,语义网数据的规模也在呈现爆炸式增长。当语义网数据规模达到一定程度时,传统的单机管理模式就无法适用了,在存储和查询的时候,单机的硬件条件必然会成为管理海量语义数据的瓶颈。如何有效的管理海量语义数据已经成为众多业内人士口益关注的热点话题,也是语义网领域的一个亟待解决的问题。   本文设计并实现了一个基于云计算平台的RDF[1](Resource DescriptionFramework)数据存储与查询系统,该系统利用MapReduce编程框架实现了海量RDF数据的数据导入、索引建立以及查询优化算法,大大节省了处理海量数据的时间开销。同时,利用Hbase[2]分布式数据库来存储海量RDF数据和相关的索引表,为RDF查询提供了索引基础。该系统解决了传统的数据库无法处理海量RDF数据的问题。在RDF查询方面,该系统利用RMI远程调用实现了一种分布式的查询框架,实现了实时的分布式查询功能。   本文主要包括三个方面的工作。第一,提出了一种海量语义数据的存储策略。通过利用Hbase分布式数据库的良好的可扩展性、易于解决空值和多值的特点,设计了一种存储海量语义数据的方法。同时,设计了一个基于MapReduce分布式编程框架的海量语义数据的导入算法,实现了海量语义数据的快速导入。第二,设计了关于海量语义数据的索引策略。将基于客体的倒排索引表存储在Hbase中,同时,设计了基于MapReduce分布式编程框架的索引建立算法,实现了海量语义数据索引的快速建立。第三,提出了一种分布式的RDF查询策略。通过利用RMI远程调用,实现了主控节点与其他计算节点的通讯,实现了分布式的RDF查询,可以提供快速实时的分布式查询服务。
其他文献
移动Ad Hoc网络是由一组无线节点组成,不需要固定基础设施的无线通信网络。移动Ad Hoc网络有很多与自身结构相关的特点,如动态网络拓扑结构、带宽是受限的、链路的容量有限及
随着互联网的发展,以及人们对电子阅读的需要,人们对版式文件的在线阅读要求日益增加。版式文件在线阅读的核心技术是在线绘制技术。本文对当前版式文件的在线绘制技术进行了
我国航天在50多年的辉煌发展历程中,探索并建立了具有中国航天特色的质量与可靠性管理体系和管理模式。在工程实践不断创新的基础上,近年来航天科技集团开展了以产品质量与可靠
侏儒立方体是进行立方体预计算的一种方法,它是一种完全物化的语义立方体,具有有向无环图的结构,可以自动的识别前缀冗余和后缀冗余,并通过对它们的压缩实现对立方体体积的压
人机界面是轨道列车控制逻辑与诊断系统的组成部分,是实现列车控制与诊断的重要平台,是司机与列车进行交互的重要接口,它集成了列车状态显示、部分控制命令发送、故障信息及故障
媒介在人类文明的发展过程中起到了至关重要的作用,是推动文化传播的重要因素,每一种新的媒介都是一个巨大的飞跃。随着计算机科学技术与网络技术的发展,数字网络传播逐渐成
无线视频传感网在传统的以传感器网络为基础的环境监测活动中引入了图像、视频等媒体,信息含量丰富,为实现细粒度、多维度、更全面的环境信息感知提供了数据支持。它关注于视
无线传感器网络越来越多地被运用到环境监测、公共医疗、军事等领域,于此同时,学术界关于物联网的研究也越来越广泛和深入。网络经常被部署在无人值守的恶劣环境中或者敌对环
随着进化算法在多目标优化问题的成功应用,逐步发展成为一个新的研究方向,引起了众多研究学者的重视,成为学术界研究的热点。特别是在过去十年中,众多国内外学者的关注和研究
聚类分析作为数据挖掘的主要方法之一,越来越引起人们的重视。所谓聚类是将一组对象分成若干类,使得同一类内的对象尽量相似,不同类的对象尽量相异。由于聚类在现实生活中应