基于收益模型的Spark SQL数据重用机制

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:zhenzhurujun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分析海量数据中的潜在价值,可以带来巨大的收益。Spark作为数据分析的重要平台已经被广泛地应用在大数据处理中。因其易用性,Spark SQL成为用户进行数据分析经常使用的接口。在数据分析应用中,存在着重复计算,而Spark SQL缺乏数据重用机制,导致了资源的浪费。  本文以减少重复计算为目标,提出了基于收益模型的Spark SQL数据重用机制,主要贡献如下:  (1)基于大数据场景,提出并实现了一种新型的收益模型用于识别重用价值大的数据以及数据管理——针对混合介质的收益模型。已有数据重用技术中都使用单一介质存储缓存数据,存在着一定的局限性,本文采用混合介质存储,充分发挥各存储介质的优势,并提出一种针对混合介质的收益模型,自动选择重用价值大的数据进行缓存以及在空间不足时优先保留重用收益大的数据。  (2)针对Spark这类大规模分布式数据处理平台,提出并实现了一种细粒度的数据重用方式——Partition粒度重用。数据分析系统通常将SQL查询语句翻译成执行计划树,树中的每个节点是一个算子,表示对数据进行的处理。在已有的数据重用技术中,缓存与重用的基本单位是算子。分布式场景下,算子的数据被划分为多个Partition,每个Partition由一台机器处理,这使得细粒度缓存与重用成为可能,从而提高缓存空间的利用率及缓存效率。  (3)设计并实现了具有数据重用功能的Spark SQL系统——Criss系统。能够根据历史负载识别出重复计算,并基于收益模型选择重用收益大的数据自动缓存,供后续计算重用,提升系统的查询处理性能。  测试结果表明,在引入数据重用机制之后,Criss系统相比于原始Spark SQL系统有40%以上的性能提升,在数据重用技术的关键问题上,通过与已有方案对比,也体现了本文所采用方案的优势。
其他文献
随着经济的发展和网络技术的日臻成熟,企业开始广泛使用呼叫中心系统来与客户进行沟通交流,旨在为客户提供个性化、定制化的高质量服务,从而达到提高企业业务量的目的。一个
随着信息社会突飞猛进的发展,互联网安全问题也日益受到人们的关注。国家相关部门在对互联网安全进行决策评估的同时,也要有效利用互联网技术来提高办公效率、规范办公流程、
随着计算机技术的日益普及以及互联网的迅猛发展,计算机网络规模越来越大,同时网络连接也越来越复杂,对于网络的管理人们要求也越来越高。对于网络管理来说,网络拓扑发现功能
云计算正在加速应用到各行各业,引领IT的发展方向。然而在云计算模式下用户将数据和应用转移到云服务器或者虚拟机中,可能会受到来自云内部恶意管理员和外部云用户的攻击,加
随着信息技术的不断发展,为了提高计算机支持的协同工作的效率,必须提高信息交流和共享的质和量。虚拟现实技术与CSCW技术相融合,产生了虚拟环境的概念。虚拟环境本质上是一种CS
在当今的计算机动画制作中,传统的计算机仿真技术由于其复杂性和缺乏自主性,已显得越来越繁琐,而且很难达到逼真的效果。随着人工生命技术的发展,许多先进的智能算法被应用到
互联网进入大数据时代,网络数据挖掘与分析系统应运而生。对于包括搜索引擎在内的所有网络数据挖掘与分析系统,网页都是它们重要的数据来源。为了保证网络数据挖掘与分析系统的
学位
许多互联网企业都建立了自己的平台,把自己的能力开放给了开发者。中国移动也建设了多种形式的能力开放网关,例如位置服务基础业务管理平台(LBMP)、短信网关等,但是相比现有
随着技术的发展,智能电视和头戴式增强现实(AR)/虚拟现实(VR)设备已得到广泛的应用。这些设备的应用给用户带来很好的观看体验,但同时也给用户带来了新的问题:在使用这类不能直