基于分布式并行计算的大数据连接算法优化研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：kllllllll

【摘要】

：

大数据时代背景下，数据的价值受到了前所未有的重视，传统的数据管理与分析技术由于其自身的限制无法应对大数据带来的挑战，亟需新的理论和技术来支撑大数据的分析和处理。连接操

【作者】

：

王阳

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2018年期

【关键词】

：

大数据连接算法分布式并行计算数据分布数据倾斜多表连接

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

大数据时代背景下，数据的价值受到了前所未有的重视，传统的数据管理与分析技术由于其自身的限制无法应对大数据带来的挑战，亟需新的理论和技术来支撑大数据的分析和处理。连接操作是数据分析处理中最基本，同时也是最耗时的操作之一，且新兴的分布式并行处理框架MapReduce对连接操作的支持度不高，因此连接算法在并行架构的高效处理仍然存在较多问题亟待解决。　　本文在综述了并行数据库领域及MapReduce框架连接算法的基础上，围绕连接算法中的数据分布、数据倾斜、两表连接及多表连接等关键问题进行了深入研究。论文的主要研究内容和创新点如下。　　(1)提出了并行数据库中一种等宽直方图的分布式并行构造方法。基于Master-slave架构在直方图构建任务开始前在请求发起节点对经RPC协议获取到的工作节点本地最大值、最小值的比较得到数据表的全局最大值、最小值;考虑到并行数据库中带宽资源是极其宝贵的资源，将直方图构建任务划分为多个子任务并行执行，集群中只传输子直方图信息以优化网络带宽的负载;最后在应用请求发起节点对使用全局最大值、最小值构建的子等宽直方图聚合实现直方图任务的构建。算法已成功应用于并行数据库内核为数据分析任务提供数据分布、数据倾斜、数据集连接属性选择率等重要信息，为后文连接算法的优化奠定了基础。　　(2)提出了MapReduce架构中基于簇代价分区的两表连接优化算法。MapReduce架构中数据倾斜会导致集群Reducer节点负载失衡从而严重影响连接算法效率，而现有负载均衡算法只关注Reducer节点输入数据量或者连接输出的均衡。针对此问题，在详细分析Reduce端处理流程的基础上，构建了同时考虑Reduce端输入和连接输出的代价模型，然后基于两个连接表的频率分布构建连接矩阵，检测并分割连接矩阵中负载过重连接单元，最后在连接矩阵中的连接单元集合和Reducer节点间建立映射以优化Reduce端的负载，并从理论角度证明了算法优化后集群中负载最重的Reducer节点与Rduce端最优负载的比值不超过2。　　(3)提出了MapReduce中基于超方体范围分区的多表连接优化算法。MapReduee架构实现多表连接任务时往往涉及到大量中间结果的读写，从而导致大量的I/O操作和网络传输。针对此问题，算法将集群中Reducer节点组织成超方体形式，将连接表中数据备份多份发送至多个Reducer节点以通过一轮MapReduce任务实现多表连接操作，算法使用范围分区代替基于超方体算法使用的Hash分区以均衡数据倾斜情况下Reduce端的负载失衡问题，基于拉格朗日乘子法的范围分区个数的确定保证了多表连接中网络传输量的最优。算法既能够在一轮MapReduce任务中实现多表连接操作，又能有效的处理多表连接中因数据倾斜导致的Reduce端负载失衡问题。

其他文献

基于云平台可信根关键技术的研究

云计算是继并行计算、网格计算和分布式计算后的又一新式的商业计算模型。它展示出五种新颖特征:快速弹性伸缩、资源池、按需自助获取服务、广泛的网络接入、可度量服务,这些

学位

可信根服务器可信云计算中心架构可信引导云计算云安全

一种面向网页木马的主机入侵检测技术研究与实现

随着互联网的不断发展,网页木马这一新形态的恶意代码已经成为互联网上最主要的安全威胁之一。由于其具有被动传播、可利用浏览器提供的客户端执行能力等有别于传统恶意代码

学位

面向网页木马入侵检测恶意代码网络安全COM组件交互式蜜罐

科学计算网格软件SCE的性能测试和优化

科学计算网格(ScGrid)的开发源于建设“中国科学院超级计算环境建设与应用”，希望建立一个能够把各学科计算应用集成到统一的网格环境，推动超级计算应用水平的提高，为科研信息化

学位

科学计算网格数据库负载测试压力测试并发测试

英文短文本相似性研究及在图书推荐中的应用

随着互联网的飞速发展,顾客和商家对电子商务推荐系统的需求日益强烈。然而当前的电子商务推荐系统大多是采用以用户为基础进行构建的。同时,由于系统建立之初,顾客对系统的

学位

推荐系统领域术语短文本相似性

多概率联合控制随机多址接入无线传感器网络MAC协议分析

无线传感器网络(Wireless Sensor Network,WSN)是由众多集传感能力、计算能力和通信能力于一体的资源受限(计算、存储能力和能源等方面受限)的嵌入式节点通过无线通信方式互

学位

无线传感器网络随机多址多通道多概率联合控制

基于统计学习的肽鉴定方法研究

蛋白质鉴定是蛋白质组学研究的基础问题之一。串联质谱技术和数据库搜索已成为自底向上蛋白质鉴定策略的常规技术手段。为了鉴定蛋白质序列，首先需要鉴定由蛋白质酶切产生的肽

学位

计算蛋白质组学统计学习肽序列鉴定串联质谱数据库搜索

高光谱图像混合像元分类技术研究

高光谱遥感在国内外的遥感领域的发展中占有重要的地位。高光谱遥感是指具有高光谱分辨率的遥感科学与技术，其依赖的基础是测普学(spectroscopy)，由于其具有很高的光谱分辨率，因

学位

企业固定资产MIS系统的研究与实现

在现代化的企业管理中,固定资产管理是一个重要组成部分。对于大中型企业,固定资产的管理难度很大。开发企业固定资产管理系统,替代了很多企业仍使用手工管理的方式,有效解决

学位

固定资产管理ASP.NET角色划分MVC

汉语文本中的隐喻计算研究

自然语言中存在大量的非字面意义的表达，如隐喻、转喻等，这些表达的真正含义无法从字面上直接获得，有时其字面义是讲不通的。这给自然语言理解提出了挑战，成为自然语言理解必须攻

学位

基于PCS的HT-7极向场交流控制

托卡马克装置物理实验的开展依赖于高效稳定的等离子体控制系统,极向场交流控制作为HT-7控制系统中的重要控制模式,是在充分利用托克马克装置变压器感应驱动的基础上,通过等

学位

基于分布式并行计算的大数据连接算法优化研究

其他学术论文