浅谈基于Hadoop平台的大规模数据排序

来源 :智能计算机与应用 | 被引量 : 2次 | 上传用户:net_goose
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
据IDC统计,2011年全球处理的数据量达到1.8 ZB,预计到2020年达到40 ZB。如何对海量数据进行高效分析和有效管理已成为大数据时代亟需解决的问题之一。商业数据、科学数据和网页数据这3类海量数据的异构性(充满着非结构化、半结构化和结构化数据)进一步增加了海量数据的处理难度。海量数据排序是海量数据处理的基本内容之一。Hadoop曾利用3 658个节点的集群在16.25小时内完成1PB数据的排序,获得Daytona类GraySort和MinuteSort级别的冠军。本文在设计层面上对Hadoo
其他文献
简述了短信服务终端和中国移动通讯短消息协议CMPP的基本原理,并根据其基本原理,应用短信终端,提出了开发一种基于CMPP协议的智能短信应用系统的设计思路,并根据该思路分析了
合作学习是集个人智慧于一体,以他人之长弥补自己不足,富于创新性和实效性的学习方式。它的基本理念在于:增强学生之间的信息互动与交流,建立积极良好的人际关系;促进人人进
由于农田承包户用无人机给水稻喷治农药,事先未向周边的蜜蜂养殖户通告,发生了一起极其惨重的蜜蜂农药中毒事故,同时给全村近100群蜜蜂造成了不同程度的农药中毒。其中有60多
<正>从参加北伐战争至全国抗日战争初期(1926—1938),国民党军队长期以路军作为主要战略单位之一,其级别高于军而低于集团军。通过历时分析两次北伐战争时期、"讨逆时期"和"
主要介绍了300Nm^3/h高纯氮气终端净化器的设计,调试及其优点。
提出了基于图像配准的多光谱纸币图像识别架构,通过对纸币图像的配准来实现相似纸币识别、纸币防伪特征检测。由于纸币图像同时具有显著的结构特性和不稳定的局部特性,采用分级的变换模型对纸币图像配准:对于全局的刚性形变采用基于Harris角点特征的仿射变换算法,对于纸币图像局部非刚性形变采用基于B-样条的FFD模型的非刚性配准算法。实验表明,本模型能很好的完成纸币图像的配准,并在相似纸币识别和红外防伪特征检
目的:分析改良手法小切口治疗白内障患者的效果。方法选取接受白内障手术治疗的44例患者,根据数字随机表方法将患者均分为对照组和研究组(n=22)。对照组26只患眼,应用超声乳化白内
以PIC24FJ256GA106单片机为对象,研究基于MCU的Web服务器设计实现方法。提出了以16位PIC单片机驱动以太网控制芯片的设计方案,设计嵌入式Webserver的系统结构。在应用层以HTTP
本文主要介绍河南移动LTE无线网智能运维系统实现方案。LTE智能运维系统是一套致力于提升LTE基站运维全生命周期管理的智能化系统。通过六元闭环的理论模型,将运维管理的PDCA
<正>一、研究背景和意义就目前来看,中职学校的学生通常都是初中阶段的后进生,专业思想、素质有待提升。主要体现在合作意识较弱,很少会积极主动地配合他人,信息获取路径比较