【摘 要】
:
数据分析和处理是大规模分布式数据处理应用中的重要任务.由于简单易用和具有灵活性,MapReduce编程模型逐渐成为大规模分布式数据处理系统(如Hadoop系统)的核心模型.由于MapR
【机 构】
:
东华大学计算机科学与技术学院 上海201620
论文部分内容阅读
数据分析和处理是大规模分布式数据处理应用中的重要任务.由于简单易用和具有灵活性,MapReduce编程模型逐渐成为大规模分布式数据处理系统(如Hadoop系统)的核心模型.由于MapReduce编程模型本身偏重于集群的可扩展性和灵活性,使得MapReduce在处理多路连接问题时的效率降低.针对MapReduce中的多路连接问题,分析了形成MapReduce多路连接性能瓶颈的原因,在此基础上,提出了利用建立多维空间模型来实现在单个mapreduce处理任务中完成多路任意连接的方法,最后,提出了用范围分割(rangepartitioner)来控制多路连接过程中的"数据倾斜"问题策略.实验结果表明该方法明显提高了多路连接的效率.
其他文献
为了研究车辆行驶过程中对桥梁产生的动力效应,通过MATLAB和ANSYS有限元软件建立了车-桥耦合振动模型.桥梁本身采用简支梁进行模拟,主要对车速、桥面等级等因素对桥梁动力响
随着神州大地改革开放的进一步深入,在全球化浪潮的冲击和影响下,尤其是在当今全球“华文潮”和“汉语热”的进程中,一个经常挂在人们嘴边的提法是——“走向世界”。在这种
通过结合MYCIN推理模型和知识库,提出一个新颖的度量单词语义相似度的途径.首先借助通用本体WordNet定义并量化单词对距离与深度,其次利用统计和分段线性插值技术计算规则的
数字经济时代使会计行业工作模式发生巨变,会计工作重心转向创造价值的管理工作.但高职院校重视传统会计轻视管理会计、重视理论轻视实践以及教师队伍建设力度薄弱等阻碍了管
干燥多风的秋冬季节,在日常生活中,我们常常会碰到这种现象:晚上脱衣服睡觉时,黑暗中常听到噼啪的声响,且伴有蓝光;早上起来梳头时,头发会经常“飘”起来,越理越乱;摸门把手
智能电网信息系统中面临着大规模数据存储、快速查询和更改等问题,针对实际应用中遇到的Apache Hive在数据更改能力上存在的不足,分析了智能电网系统中数据更改特点和Hive各
虽然当前的MIDI规定仍是1.O版,但是与1984年推出的原始版本相比已有很大的不同。MIDI机械控制、MIDI表演控制等规定是后来添加进去的,选库、全部声音关断和许多其它新的控制
现实世界中的实体及其相互关系可以用图模型来表示,关系强度用边上的权重衡量.模式匹配查询是数据库研究领域的基础查询之一.针对有向带权图,提出一种权重约束的模式匹配查询
本文主要围绕县级图书馆在服务乡村振兴中的作用展开研究,通过分析县级图书馆的作用,结合乡村振兴要求和县级图书馆建设过程中需面对的问题,从完善县级图书馆基础设施建设和
一、cdmaSea~(TM)简介 东方通信CDMA交换系统(CDMA Switch System of EAstern Communications?cdmaSeaTM)的体系结构如图一所示,主要由系统控制模块(SCM)、网络交换模块(NSM