论文部分内容阅读
随着互联网的高速发展,语义网数据的规模也在呈现爆炸式增长。当语义网数据规模达到一定程度时,传统的单机管理模式就无法适用了,在存储和查询的时候,单机的硬件条件必然会成为管理海量语义数据的瓶颈。如何有效的管理海量语义数据已经成为众多业内人士口益关注的热点话题,也是语义网领域的一个亟待解决的问题。
本文设计并实现了一个基于云计算平台的RDF[1](Resource DescriptionFramework)数据存储与查询系统,该系统利用MapReduce编程框架实现了海量RDF数据的数据导入、索引建立以及查询优化算法,大大节省了处理海量数据的时间开销。同时,利用Hbase[2]分布式数据库来存储海量RDF数据和相关的索引表,为RDF查询提供了索引基础。该系统解决了传统的数据库无法处理海量RDF数据的问题。在RDF查询方面,该系统利用RMI远程调用实现了一种分布式的查询框架,实现了实时的分布式查询功能。
本文主要包括三个方面的工作。第一,提出了一种海量语义数据的存储策略。通过利用Hbase分布式数据库的良好的可扩展性、易于解决空值和多值的特点,设计了一种存储海量语义数据的方法。同时,设计了一个基于MapReduce分布式编程框架的海量语义数据的导入算法,实现了海量语义数据的快速导入。第二,设计了关于海量语义数据的索引策略。将基于客体的倒排索引表存储在Hbase中,同时,设计了基于MapReduce分布式编程框架的索引建立算法,实现了海量语义数据索引的快速建立。第三,提出了一种分布式的RDF查询策略。通过利用RMI远程调用,实现了主控节点与其他计算节点的通讯,实现了分布式的RDF查询,可以提供快速实时的分布式查询服务。