面向用户的科学工作流数据跟踪的研究与实现

来源 :中山大学 | 被引量 : 0次 | 上传用户:yulu0355
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
工作流技术的不断发展,使其应用领域也不断扩大。科学工作流作为一种有别于传统工作流的工作流类型正成为当前学术界研究的热点。科学工作流为了给科学家提供高效的数据管理和实验分析,将工作流技术应用于科学研究领域,在网络基础设施上进行大规模计算和协同计算提供有效方法。数据集中与计算密集是科学工作流的主要特点。因此,科学工作流的数据跟踪成为科学工作流的迫切需求。国内对科学工作流数据跟踪的研究几乎是空白,而国外对其研究较多,但是大部分都缺乏良好的模型支持、数据流分析、国际标准的查询接口和便于用户使用的可视化跟踪。 针对这一问题,本文提出一种支持过程网络计算模型的科学工作流模型。通过对该模型的数据流分析,在开源项目—Kepler科学工作流系统的基础上,实现了数据项的可视化跟踪与具有国际标准的XQuery对跟踪数据的查询,极大的方便了科学工作流用户。 科学工作流数据跟踪的实现需要有相应的模型支持。过程网络计算模型是科学工作流领域广泛使用的一个计算模型,并且该模型有利于数据流的分析。数据跟踪贯穿于科学工作流流程设计阶段、运行阶段和运行后三个阶段。本文在流程设计阶段对工作流的数据流进行分析,检验流程中的数据异常,包括数据缺失和数据冗余,并给出相应的数据验证算法;在流程运行阶段,对数据项进行记录,包括元数据、参数与流程数据项等;在流程运行后保存跟踪数据,然后从用户的角度,把要跟踪的数据项的起源数据项图形化的展现给用户,用户可以直接看到流程数据项的变化过程。本文实现了XQuery对跟踪数据的查询,当用户需要对跟踪数据进行分析的时候,通过自定义XQuery查询,可以对跟踪数据进行灵活的处理。 本文数据跟踪的实现基于Kepler科学工作流系统。通过扩展Kepler系统的核心类,实现科学工作流运行时数据项的记录。数据流中数据项的变化是有前后依赖关系的,通过依赖关系,如数据项依赖关系、调用依赖关系等,可视化的给用户展示数据项在流程中的变化过程。XQuery是一个标准。本文在科学工作流客户端通过XQJ(XQuery API for Java)与XQuery引擎进行交互,实现对跟踪数据的查询。 本文的研究是国家自然科学基金项目—“支持人工协作的服务工作流关键技术研究”中关于数据流的前期研究工作。本文数据流的验证以及可视化数据跟踪的实现对服务工作流在分布式环境下流程数据的处理,具有重要的意义。
其他文献
多Agent技术是研究复杂现象与复杂系统的一个重要手段,其中多Agent的群体行为问题是多Agent技术的一个研究热点。在多Agent群体行为中,Agents之间可能会发生冲突;为了减少Age
面向服务的体系架构(SOA)是一种全新的软件体系架构,指导人们站在业务的高度去思考应用,利用新的方案解决软件重用和软件集成问题,使得企业可以构建灵活的IT基础设施,从而实现真正
本体作为一种重要的知识表示形式,已经逐步从理论研究走向实际应用领域。传统的本体建模语言采用人工智能领域的形式化语言,较为抽象而且应用范围狭窄,不完全适合实际应用的
Ajax技术正处于迅速发展的阶段,它大大扩展了Web应用的能力。但存在一些问题限制了Ajax技术的应用。论文介绍了现有Ajax技术发展现状和问题,仔细分析和总结了Ajax应用设计理论
随着个人计算机的普及和互联网技术的高速发展,流媒体点播系统的应用越来越广泛。流媒体点播技术使用户可以直接从网络中实时连续地下载并播放视频。由于服务器经常因为负荷
当晶体管尺寸接近纳米级别时,量子力学现象在信息处理中起到越来越重要的作用。若这些量子现象包含有限的基态,可以将其抽象为量子电路,一种对常规或“经典”逻辑电路的量子模拟
备件库存管理是企业设备管理中的一项重要组成部分。合理的备件库存对于维持设备的正常运行、促进生产过程的连续性起着重要的作用。为避免因备件短缺而造成的设备停工现象,必
河流相储层在我国石油工业中占有非常重要的地位,由于其横向变化快、储层非均质性严重,很难对其进行定量描述。应用随机游走方法对河流相储层建模,可以充分利用其随机特性和预测
基于视图变形的立体图像对的生成是根据视图变形的基本原理,根据已经获取的立体图像对采用基于图像的绘制的方法得到过渡图像序列,从新的图像序列中选取新的立体图像对以形成新
随着网络技术和多媒体技术的飞速发展,多媒体数据逐渐成为人们获取信息的重要来源,是人们生活的重要组成部分;同时,保护数字产品版权所有者的合法权益的问题也变得越来越重要