云工作流数据管理的若干问题研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:ggqllm555
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前云计算在底层的基础设施建设和虚拟化层面取得了很大发展,然而人们对于上层的应用构造还缺少深入的研究,导致云计算的应用价值没有充分地体现。企业或单位现阶段全盘采用云计算并不现实,出于数据安全的考虑和对既有IT资产的保护,只会将部分资源部署在云端。相当长一段时间内,会存在云端资源与用户端资源并存的局面,能综合利用两端资源的集成型应用将成为一种重要的应用形态。为了构造这种集成型应用,人们迫切需要一种易用的构造工具以及相应的运行时支撑环境。   工作流作为一种协作和集成的支撑技术,在过去的几十年中得到了充分的研究,其对分布资源的集成能力以及友好的图形化建模方式受到了广泛的认可。基于云计算基础设施之上的“云工作流”平台将会有广泛的前景:一方面应用构造者可以方便地构造出能综合利用两端资源的集成型应用,另一方面有协作关系的应用构造者也可以通过这个平台共享彼此的资源。与传统工作流不同,受资源交付方式、系统边界等因素变化的影响,云工作流中的数据管理面临一些新问题:(1)受云端的计费模式及安全性的影响,两端资源之间的业务数据联动会给应用构造者带来资金、时间、安全风险等多方面的成本,需要研究如何控制数据联动中的成本;(2)受广域网带宽的限制,在服务输出数据量大的情况下,两端服务之间业务数据联动的效率成为制约流程运行效率的瓶颈,需要研究如何提高数据联动的效率;(3)面对大规模的数据和密集的流程请求,需要研究如何使得流程数据在云端的管理具备可扩展性。针对上述问题本文开展了一系列研究,主要的工作和贡献如下:   1.提出了一种兼顾多维成本的业务数据项优化放置算法,该算法通过优化流程中各业务数据项的放置策略能够有效控制业务数据联动中产生的成本。   在集成型应用中,业务数据联动产生的成本是流程运行时成本的重要组成部分,而业务数据项的放置策略影响着数据联动的成本。为了满足不同应用构造者对各方面成本控制的个性化需求,本文提出了一种兼顾多维成本的业务数据项优化放置算法。其特点在于能充分利用两端资源的优势,综合考虑了流程中每个业务数据项的放置策略对于时间成本、资金成本、安全风险成本几个维度上的综合影响,将求解给定约束条件下的最优放置策略问题转化为整数规划问题来求解。该算法还具有较好的适应性,能够根据应用构造者给出的成本约束条件的多少采用复杂度尽量低的求解方案。实验表明,对于同样的流程,相对于其他的业务数据项放置策略,经该算法优化过的放置策略在运行时造成的总综合成本更低,对成本约束条件的满足率更高。   2.提出了一种两阶段增量式数据复制协议,根据用户端服务输出的业务数据的特点采用差异化的复制策略,有效提高了业务数据联动的效率。   业务数据联动过程中需要复制用户端服务输出的业务数据到云端,而受广域网带宽的限制,当服务输出数据量较大时联动的效率往往成为流程运行的瓶颈。由于用户端的部分服务每次被调用时输出的数据具有较高的重合度,因此可以通过只复制增量数据来提高效率,但是增量数据的识别需要耗费时间,在数据的重合度不高时,效率反而降低。文中提出了一种两阶段增量式流程数据复制协议。其特点在于结合了全量式数据复制和增量式数据复制协议的优点,将增量识别和数据传输并行化,并根据识别出的增量数据大小合理地调整后续的复制策略。通过实验验证,在有代表性的服务集合的调用测试中,该协议的耗时整体上低于其他数据复制协议:是全量式数据复制协议耗时的56%,是增量式数据复制协议耗时的75%。此外,采用该复制协议后,对用户端数据有依赖的流程的运行时间降低较明显,平均可降至原有运行时间的60%。   3.提出了一种基于访问代理模式的可扩展的流程数据管理机制,可满足高并发请求和大数据量下的流程数据管理需求。   云工作流需要管理大规模的业务数据和控制数据,应对密集的流程请求。流程数据的管理机制是制约云工作流可扩展性的关键因素。本文提出了一种基于访问代理模式的可扩展的流程数据管理机制,该机制具有以下特点:(1)充分考虑了云工作流中各种流程数据的特征,综合利用了关系型数据库和分布式键值存储系统各自的优势管理相应的流程数据,并通过抽象的流程数据访问层对数据访问进行有针对性的路由,屏蔽了底层数据模型的差异,提升了系统的整体性能和可扩展性。(2)利用了流程实例状态转移的规律,对经典的关系型数据库读写分离机制进行了改进,通过有选择性的路由实现了一种非对称的读写分离。实验表明,在请求压力不变的情况下,增加同样个数的数据节点,相对于传统的读写分离机制,在该机制作用下流程实例的平均运行时间缩短了30%~60%。
其他文献
视频监控技术一直是人们关注的热点之一,随着网络和计算机的普及,监控探头大量出现在住宅区、公路、银行等场所,为人们的财产安全保驾护航,为公安机关侦破案件提供重要的线索
网页已经成为人们在工作和生活中必不可少的工具之一。除了向用户提供信息之外,网页还担负着用户和互联网之间的交互任务,是用户访问互联网的最主要的接口。在愈来愈强调用户
随着汉语自然语言处理任务的不断深入,汉语句子研究也逐步从句法层面,进入到了语义层面,汉语句子的句法语义分析逐渐成为汉语自然语言处理过程中一个重要的任务。经过多年发
无线Mesh网络(Wireless Mesh Network)简称WMN,是一种具有自组织多跳特性的宽带无线网络。在无线Mesh网络中,任何无线设备都可以同时作为AP和路由器,网络中的每个节点都可以
随着技术的进步和处理器结构的发展,高性能通用微处理器的TLB(TranslationLookasideBuffer)成为系统性能的瓶颈。为加快TLB的访问速度,TLB通常采用全相联结构。全相联的组织模
图像的理解和识别一直都是数字图像处理研究的热点和难点:要实现对图像的理解,最重要的是提取能够准确描述图像的特征。而使用现有方法提取的图像特征进行图像识别时,无论是
随着EAST托卡马克物理实验不断发展,必然会进入到稳态运行过程,在实验过程中,物理实验人员诊断数据,以便对控制系统相应参数进行调整,从而维持等离子体平衡,获得理想的放电结
随着制造工艺的进步,晶体管特征尺寸不断减小,氧化层厚度不断降低。然而,为了维持芯片的高性能,供电电压的下降却较为缓慢。很薄的氧化层和相对较高的供电电压会在晶体管沟道内部
视频图像中的运动目标跟踪作为计算机视觉领域的核心研究课题之一,经过近五十多年的发展得到了广泛而深入的研究。它融合了图像处理、模式识别、人工智能、自动控制等相关领域
随着信息技术的蓬勃发展,计算己渗透到人类生活的方方面面,无处不在的网络、多元化的便携设备为随时随地的移动计算提供了可能。用户希望能随时随地在任意设备上访问早已熟悉