【摘 要】
:
连接运算是面向海量数据的复杂分析型任务的核心内容之一,但是目前最具竞争力的分布式并行处理框架MapReduce没有对连接运算提供内在的支持.经分析发现现有的工作无法以
【机 构】
:
School of Computer Science, Northwestern Polytechnical University, Xi'an 710129
论文部分内容阅读
连接运算是面向海量数据的复杂分析型任务的核心内容之一,但是目前最具竞争力的分布式并行处理框架MapReduce没有对连接运算提供内在的支持.经分析发现现有的工作无法以既高效又不影响集群负载均衡和容错能力的方式来处理适用面最广的非对称分片复制并行连接算法,因此提出一种基于自适应分片的优化算法AFR-AS.借助自适应分片可以解耦Map任务数与数据集复制代价之间的高度耦合关系.利用自适应分片的动态构造算法,Map任务可以在任务生命周期内处理多个普通分片,从而有效降低任务启动开销以及非对称分片复制连接中的数据广播开销,同时保证了基于普通分片的细粒度负载平衡和容错能力.实验表明,优化技术可以有效提高连接运算性能且具有自适应性.
其他文献
针对电力系统暂态稳定预防控制在线计算的复杂性,提出一种基于生成对抗网络的暂态稳定预防控制方法.通过将暂态稳定预防控制建模为样本空间映射问题,该方法利用数据驱动方法
世系记录了数据产生和演化的过程,基于世系信息计算不确定性数据查询结果的不确定性,可提高处理的效率.贝叶斯网是不确定性知识表示和推理的基本框架,以有效支持基于世系
针对现在数据流查询与管理系统存在的不足,本文基于Aurora开发了支持CQL的数据流管理系统Conger,系统演示包括CQL示例查询的注册、解析和执行等。
如今的互联网领域时刻都在产生海量的数据,文本数据是重要的组成部分。在这些文本数据中,存在大量的近似复制文本,这些相似程度很高的文本对给相关处理程序增加了额外负担。
在智能电网中,精准的数据采集是整个系统安全与经济运行的基础.随着信息与物理系统融合的不断加深,各类大数据应用与实时控制等任务对采集高频数据的要求不断提高.然而,提高
图数据结构具有较强的模拟复杂结构的能力,能够很好地表达数据对象之间的关联,广泛地用于各领域非结构化数据建模。为解决大量数据子图查询处理中的不确定情况,本文提出了基
针对物联网数据具有的海量性、异构性、时空敏感性、序列性及数据流式等典型特性,提出适用于单个存储节点的物联网异构时空数据统一存储模型Hestus,通过分层应用架构模式
如何处理缺失值一直是数据库领域中一个值得关注的问题,缺失值问题的研究对于提高运算效率和保证系统健壮性具有重要意义。云环境中海量数据的稀疏性使缺失值问题变的更加
社交网站作为在线交流的最新形式,吸引了数以亿计的用户,同时产生了海量数据。为此,如何存储大量的用户及其交互信息成为了社交网站的一个挑战。在深入分析了社交网络数据的
提出了一种无线传感器网络中基于子空间划分的分布式Skyline查询算法(subspace dividing-based distributed skyline query algorithm,SDKSA),算法提出了一种基于子空间