基于HBase的RDF存储系统的研究与设计

被引量 : 0次 | 上传用户:ronalito
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着语义Web的发展,资源描述框架(RDF)得到了广泛的应用。然而传统集中式的RDF存储系统在日益增长的数据面前遭遇了难以跨越的存储与查询瓶颈。研究人员开始将目光投向分布式领域,以期利用分布式系统所具备的海量存储与并行计算能力来解决当前集中式RDF存储系统面临的各项问题。本文以RDF存储系统为研究对象,提出了采用分布式存储系统HBase存储RDF数据的方案,以及应用MapReduce并行计算框架进行RDF查询处理的策略。首先,本文介绍了RDF存储系统的研究现状。本文介绍了RDF的概念背景、RDF标准查询语言SPARQL的构成,简述了当前已有的部分分布式RDF存储系统实现以及当前基于Hadoop相关技术的RDF存储研究现状。接着,在深入分析RDF存储系统的各项特性后,本文提出采用分布式存储系统HBase来存储RDF数据的具体方案。RDF数据将被存储在SPO、POS、OSP三张表中。本文描述的方案充分利用了HBase的默认索引机制,在保证RDF查询性能的同时有效地减少了RDF数据的存储开销。然后,本文提出采用MapReduce并行计算框架处理SPARQL查询语言中Basic Graph Pattern (BGP)的具体策略。本文在当前已有的MapReduce多路连接方法之上提出了一个贪心的多路连接选择策略。本文提出在进行MapReduce多路连接时优先处理具备高选择性的Triple Pattern子句,这样就可以在Map阶段提前过滤冗余数据,从而在保证MapReduce任务数目一定的情况下尽可能减少整个连接处理过程中的I/O操作开销。本文采用LUBM测试集对查询策略进行了实验,实验结果表明了本文提出的查询策略在大数据集下可以有效工作。最后,本文以HBase上的RDF存储方案与MapReduce连接处理策略为基础搭建了基于HBase的RDF存储系统原型。
其他文献
金雀花(Caragana slnlca)又名娘娘袜子、土黄豆、粘粘袜、酱瓣子、阳雀花、黄棘等.豆科植物,为落叶多刺灌木.高可达2m.生于林缘、路旁灌丛中或村庄附近.小枝细长有棱.偶数羽
模糊神经网络是智能控制理论中一个十分活跃的分支,是一种能处理抽象信息的网络结构,具有强大的自学习和自整定功能。一方面弥补了纯模糊逻辑在学习方面的缺陷,另一方面使得
随着现代社会生活质量的提高,人们的消费结构也发生了很大的变化,对食物的质量要求也越来越高。猪肉作为不可或缺的食物之一,为养殖业带来了生机,规模化猪场兴起。在规模化猪
当前,全球分享经济快速增长,基于互联网等方式的创新创业浪潮蓬勃兴起。“众包”这种既可以带来源源不断的创意,高效快速得到解决方案,又能大大降低企业生产成本、达到用人而不养
报纸
从绿色生产、绿色治理和绿色环境三个维度构建指标体系,将基尼系数客观赋权法与突变级数法相结合,以中国31个省份为研究对象,对2013年中国绿色发展竞争力空间分异进行实证研究,并
关于春秋吴王"寿梦"称号的真实意涵,一般都认为是"长久牢固之渔网",但是这个诠释的意思非常含糊,方法又很不科学,值得商榷。依据吴地苏州方言、中原汉语文字及其他方面佐证,"
近年来多媒体技术和网络技术得到了蓬勃的发展,使得视频数据海量增加,同时由于视频数据的复杂性,传统的数据处理方式已经不能满足需求,如何从海量的视频中快速高效的检索出所
<正>4月9日,埃及亚历山大港和北部城市坦塔市接连发生针对科普特教堂的自杀式爆炸袭击,造成至少47人遇难、100多人受伤。极端组织"伊斯兰国"宣布制造了这两起袭击事件,受到国
众所周知,公务员工资制度与企业的工资制度是不同的。但是工资对于人才所发挥的吸引、保留和激励作用,在任何组织中都是相同的。我国公务员从1993年开始实行职级工资制,运行
我国现行《中华人民共和国环境保护法》(以下简称《环境保护法》)修订于1989年,它确立了我国环境保护法律体系的基本框架,推动了国家和地方的环境立法工作以及国家各项环境保