论文部分内容阅读
据IDC统计,2011年全球处理的数据量达到1.8 ZB,预计到2020年达到40 ZB。如何对海量数据进行高效分析和有效管理已成为大数据时代亟需解决的问题之一。商业数据、科学数据和网页数据这3类海量数据的异构性(充满着非结构化、半结构化和结构化数据)进一步增加了海量数据的处理难度。海量数据排序是海量数据处理的基本内容之一。Hadoop曾利用3 658个节点的集群在16.25小时内完成1PB数据的排序,获得Daytona类GraySort和MinuteSort级别的冠军。本文在设计层面上对Hadoo