论文部分内容阅读
随着信息时代的发展,越来越多的数据产生,数据的种类和规模正以前所未有的速度增长,如何更好的管理和利用大数据已经成为普遍关注的话题.数据规模的提升给数据存储、管理以及数据分析带来了极大的挑战.在此背景下, Google公司公开了MapReduce模型来处理大数据,微软也提出了一个相类似的模型Dryad.在Google公开分布式文件系统、MapReduce模型等技术中心思想的基础上, Hadoop大数据处理平台应运而生,随后学术界和企业界围绕这些模型框架系统提出了一系列改进或者提出一些新的模型框架和系统.在大数据处理中,有越来越多的应用场景和增量数据有关,即数据随着时间的推移快速增加或有小的改变,为了处理这一类问题,需要设计系统只处理增加的数据而不需要对所有数据重新计算.本文在hourglass系统的基础上结合Hadoop对MapReduce模型的具体实现提出了一种新的增量计算框架,可以根据数据特性选择适合的处理方式进行增量计算,提高增量计算效率.