基于状态更新传播的流式图计算系统设计与实现

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:smiletonyfrank
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图数据结构能够很好的表达数据之间的关联性,因此在社交分析、商品推荐、舆论监测和欺诈检测等应用中被广泛使用。随着互联网的发展,现实社会和生产环境中的图数据越来越呈现海量和动态特性。  目前发展较为成熟的分布式图处理框架Google Pregel、Spark GraphX和GraphLab等,所处理的图数据都是静态稳定的图数据。针对动态变化图数据的处理,大多集中在算法研究层面上,仅有的KineoGraph和IncGraph等系统是以串行的方式进行增量式更新,无法充分利用多机并行更新的优势,此外SpecGraph提出的基于推测机制的并发更新模型,虽然提高了系统的并行性,但其模型的出发点是状态更新只与顶点接收消息有关而与原始状态无关,这个约束又使得模型的表达能力有限。  基于现有工作的不足,本文提出了一种基于状态更新传播的流式图计算模型。它将连续不断的图数据流抽象成一系列的事件流,将用户关心的图计算结果抽象成图的状态,用户只需定义图状态如何根据到达的事件增量式地进行状态转换,就能完成事件流到状态流的映射,提供实时反馈中间计算结果的能力。本文的关键技术有(1)通过状态直接反映了用户所关注的信息,使得系统无需存储全部的图数据,而只需存储用户关心的数据,从而减少了存储开销;(2)通过采用增量更新和变化传播的方式,使得增量数据对全图的影响范围更小,迭代收敛的速度更快;(3)通过分析典型的图算法特征,抽象出两种常见的状态类型:独立状态和关联状态,通过对独立状态的分布式存储和并发更新策略,以及对关联状态的细粒度分布式锁的更新策略,能够有效解决关联状态下更新冲突的问题,从而提高了系统的并行性和正确率。  实验结果表明,相比较传统的批式图计算系统,实现的基于状态更新传播的流式图计算模型GraphFlow系统,能够实时计算并反馈结果,在本文给定的实验环境和算法下,90%的图数据更新请求能在12ms内得到响应;相比较动态图数据的估计模型,GraphFlow的准确率较高,计算偏差在1%以内;而采用细粒度分布式锁的方式进行并发更新时,更新冲突的概率在3%以内。
其他文献
本文讨论了组播安全中实现机密性和身份验证的算法,并提出一种新的改进的组播密钥管理协议。针对具体应用情况,采用与IPSec技术相结合的方式,实现了组播安全的密钥管理技术。文
针对目前普遍采用的电子选举FOO模型,描述了模型的具体过程,分析了模型内部存在的安全漏洞和弊端,找出了造成这些漏洞和弊端的原因。针对这些问题提出了相应的改进策略,利用
在临床诊疗活动中,医生医学知识的储备对临床诊疗服务的质量有着至关重要的影响。但是由于临床医学学科的复杂性,加上医生自身记忆和认知能力的局限性,在临床诊疗活动中医生往往
网络经济模式下,面对市场不断变化的需求,企业间往往需要组成动态联盟共同实现商机.其中,能够快速、灵活地合成联盟成员间的业务流程十分关键.Web服务的出现使企业可以提供"
密码协议安全性分析是网络安全的一个难题,运用形式化方法对密码协议进行分析一直是该领域的研究热点.形式化分析由于其精炼、简洁和无二义性逐步成为分析密码协议的一条可靠
缺陷修复是软件维护过程中重要的活动。有研究表明,软件开发过程中80%的工作量和花费用在了软件维护阶段的缺陷修复上。随着开源软件的迅速兴起,越来越多的公司和自由开发者加入
形状匹配是计算机视觉和模式识别的一个基本问题,它是衡量形状间相似性的一种技术,在众多领域得到了广泛的应用,如文字识别、目标识别、基于内容的图像检索和医疗诊断等。本文主
GPRS通用分组无线业务是一种基于GSM全球移动通信系统的无线分组交换技术,提供端到端的、广域的无线IP连接。与传统的固定网络相比;同样存在着如何保障网络通信安全和用户合法
各类重大工程如大坝、桥梁、隧道等,在设计、施工和运行过程中都面临着非连续、大变形、大位移问题。当前工程设计的依据是经验与计算,但随着计算技术的发展,尤其是数值计算方法
"华能营口电厂实时数据管理系统"解决了如何将现场工业控制网中的实时生产数据引入到管理网的问题,并且为用户提供了基于实时数据的管理系统.用户可以通过该系统对现场的生产