面向大规模知识图谱的分布式查询系统

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:wangbadanwang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识图谱是描述真实世界中实体和概念以及它们之间联系的关系网络,利用知识图谱可以更好的查询复杂的关联信息,并且可以更精确的查出用户所需的信息。主流搜索引擎开始研究知识图谱并计划将知识图谱作为下一代搜索引擎的底层数据结构,现有的工作大多集中于分布式存储过程的数据结构设计和处理优化,但在负载均衡和图连接方面的研究仍需重大突破。面向大规模知识图谱的分布式查询系统应运而生。首先,设计了面向管理节点的抽象数据类和面向数据节点的数据实类,以实现管理节点连接策略选择与数据节点单机查询的并行。面向管理节点的抽象数据类不存储真正的数据,只存储数据节点的数据获取方法以减少数据流动。面向数据节点的数据实类将中间结果存储在内存之中,以减少I/O的时间消耗。抽象数据类与数据实类一一对应,抽象查询类通过合并、分裂和连接操作来控制数据节点的数据粒度,以实现执行节点之间的并行连接。当数据节点执行出错时,数据节点可根据抽象数据类的血缘关系来恢复数据。其次,创新性的引入图连接树来实现基于数据分布的分布式连接算法。图连接树是管理节点抽象数据类通过合并、分裂和连接操作得到最终结果抽象数据类的次序集合,执行节点依据图连接树来管理数据的流动并得到最终的查询结果。管理节点存储数据的统计索引以实现查询的结果数预测。基于结果数预测,以动态规划思想来创建图连接树以减少连接操作的执行次数,提高整体连接操作的效率。管理节点间隔性的统计某一时刻集群的负载情况。基于集群负载情况,以动态规划思将图连接树分解成图连接森林,每个执行节点根据自身负载情况选择最优图连接树以实现集群的负载均衡。然后,采用异步和非阻塞通信模式进行数据传输,将知识图谱中的主谓宾转换成固定长度编码以提高交互效率。最后,设计实现了基于数据分布的分布式查询系统,并对不同的数据提供支持。为验证基于数据分布的分布式连接算法的高效性,将传统的三种分布式图连接算法移植到基于数据分布的分布式查询系统进行对比测试,采用大规模数据集和国际标准分布式查询用例以提高测试的权威性。采用五种规模的集群和数据集来验证基于数据分布的查询系统的可扩展性。实验结果表明,基于数据分布的分布式图连接算法比传统分布式连接算法具有更高的并行性和更少的时间消耗,基于数据分布的分布式查询系统具有良好的可扩展性。
其他文献
背景:已有研究表明炎性复合指标对急性心肌梗死(acute myocardial infarction,AMI)的预后有重要的预测价值。近期报道了一种基于血细胞计数的新型炎性指标,称为系统免疫炎症指数(systemic immune-inflammatory index,SII)。它是由患者外周血的中性粒细胞、血小板以及淋巴细胞的绝对计数计算而得,其计算公式为SII=(中性粒细胞计数×血小板计数)/
学位
精确的时间测量,给测量值打上准确的时标,对提高测量系统中信号的测量精度十分重要。但在实际的应用中,由于各种可能原因,信号标记的测量时刻和真实的测量时刻之间存在一定的偏差,称为时标偏差。时标偏差的存在会给被测信号中引入测量误差,称为时标误差。在卫星跟踪卫星技术、卫星雷达测高技术、站间双向时间比对技术等测量系统中,时标误差是影响信号测量精度的一个重要误差项。多观测量测量系统中的信号组合运算时,如果每个
学位
随着科技的发展,汽车开始朝着网络化、智能化方向发展,汽车所处的网络环境也日益复杂。车载通信系统作为集成了汽车通信模块的重要组件,在当下汽车发展趋势中,其安全性有着重要的研究价值。但是针对车载通信系统的访问控制的安全研究,还相对比较落后。访问控制是保护系统安全非常重要的方法,可以持续的约束和监控用户对系统内资源的访问活动,是重要的安全防护手段。但在复杂的车联网环境下,传统的访问控制模型对车载操作系统
学位
目的:探讨应用自体肋软骨移植技术矫正先天性单侧唇裂继发的鼻及唇部畸形的手术效果,及相关影响因素,为优化唇裂继发鼻唇畸形的序列治疗方案提供临床依据。方法:对2013年05月-2019年10月在华中科技大学附属同济医院整形美容外科诊断为“先天性单侧唇裂继发鼻唇畸形”的82例患者进行了回顾性研究。从术后鼻正侧位、鼻颏下位及唇部正位三个方面的客观效果指标:鼻翼外突对称指数、鼻孔高度对称指数及唇峰高度对称指
学位
【目的】:本研究旨在筛选在神经母细胞瘤中可能与自发消退相关的长链非编码RNA,同时探索其对神经母细胞瘤细胞生物学行为的影响,并初步探讨相关机制。【方法】:本研究选取公共数据库(GEO)中的神经母细胞瘤(neuroblastoma,NB)组织标本基因芯片(GSE16476,n=88),采用R语言及BRB-Array Tools对芯片数据进行分析,得出在4期和4S期之间显著差异表达且与生存显著相关的l
学位
MIMO-LPWAN系统是为了解决现有的LPWAN技术(例如:NB-Io T,Lo Ra等)在面对海量终端并行接入时,存在着信令开销高,接入成功率低,系统容量不足等问题而研发的。针对这些问题,一个解决方案是MIMO-LPWAN技术。目前,MIMO-LPWAN的上行通信部分已经完成了理论分析与实现验证,还需改进LPWAN系统的下行部分使支持MIMO。本文在MIMO-LPWAN下行通信中,针对单用户和
学位
近年来,数据业务流量快速增长,低轨卫星网络由于其全球无缝覆盖能力、高通信质量、低通信时延、低发射难度等优势,逐渐受到越来越多的关注与研究。同时随着互联网的发展以及用户终端数量的迅速增长,涉及多参与方的应用程序诸如视频分发、多人游戏等流量占比与日俱增,因此多播路由作为一种高效的通信方式在低轨卫星网络通信中的重要性日益凸显。然而,卫星网络拓扑的高动态性、日渐多样化的应用程序对服务质量(Quality
学位
列车通信网络融合了控制网络和服务网络,不同于IT系统,列车控制系统是一种实时性和可靠性要求高的工业控制系统,不能用传统的IT系统的防护思想去进行安全防护。本文分析了列车通信网络结构、列车实时数据协议和功能数据单元,结合入侵检测技术和列车通信网络的特点,设计并实现了一种结合误用检测和异常检测的列车通信网络入侵检测系统。本文针对列车通信网络的信息安全需求,分析了列车通信网络的结构和通信数据,以及列车通
学位
目的:回顾性分析不同分子亚型非特殊型浸润性乳腺癌(NSIBC)转移灶18F-FDG PET/CT影像特征,并探讨转移性NSIBC患者临床病理及18F-FDG PET/CT影像特征对其预后的评估价值。方法:选取2013年12月至2018年10月在我院PET中心行18F-FDG PET/CT全身显像的女性乳腺癌住院患者,按照本研究标准纳入转移性及非转移性NSIBC患者作为研究组及对照组,并收集其临床病
学位
背景转录组中信使RNA(message RNA,m RNA)及长链非编码RNA(long non-coding RNA,lnc RNA)表达水平的变化及转录后的可变剪接(alternative splicing,AS)调控机制已被证实在胶质母细胞瘤(glioblastoma multiforme,GBM)发生和进展的过程中发挥重要作用。我们研究的目的是采用生物信息学方法,系统的分析识别与胶质母细胞
学位