论文部分内容阅读
随着语义Web的发展,资源描述框架(RDF)得到了广泛的应用。然而传统集中式的RDF存储系统在日益增长的数据面前遭遇了难以跨越的存储与查询瓶颈。研究人员开始将目光投向分布式领域,以期利用分布式系统所具备的海量存储与并行计算能力来解决当前集中式RDF存储系统面临的各项问题。本文以RDF存储系统为研究对象,提出了采用分布式存储系统HBase存储RDF数据的方案,以及应用MapReduce并行计算框架进行RDF查询处理的策略。首先,本文介绍了RDF存储系统的研究现状。本文介绍了RDF的概念背景、RDF标准查询语言SPARQL的构成,简述了当前已有的部分分布式RDF存储系统实现以及当前基于Hadoop相关技术的RDF存储研究现状。接着,在深入分析RDF存储系统的各项特性后,本文提出采用分布式存储系统HBase来存储RDF数据的具体方案。RDF数据将被存储在SPO、POS、OSP三张表中。本文描述的方案充分利用了HBase的默认索引机制,在保证RDF查询性能的同时有效地减少了RDF数据的存储开销。然后,本文提出采用MapReduce并行计算框架处理SPARQL查询语言中Basic Graph Pattern (BGP)的具体策略。本文在当前已有的MapReduce多路连接方法之上提出了一个贪心的多路连接选择策略。本文提出在进行MapReduce多路连接时优先处理具备高选择性的Triple Pattern子句,这样就可以在Map阶段提前过滤冗余数据,从而在保证MapReduce任务数目一定的情况下尽可能减少整个连接处理过程中的I/O操作开销。本文采用LUBM测试集对查询策略进行了实验,实验结果表明了本文提出的查询策略在大数据集下可以有效工作。最后,本文以HBase上的RDF存储方案与MapReduce连接处理策略为基础搭建了基于HBase的RDF存储系统原型。