基于Hourglass的增量计算框架

来源 :第三届CCF大数据学术会议 | 被引量 : 0次 | 上传用户:wuan461618
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  随着信息时代的发展,越来越多的数据产生,数据的种类和规模正以前所未有的速度增长,如何更好的管理和利用大数据已经成为普遍关注的话题.数据规模的提升给数据存储、管理以及数据分析带来了极大的挑战.在此背景下, Google公司公开了MapReduce模型来处理大数据,微软也提出了一个相类似的模型Dryad.在Google公开分布式文件系统、MapReduce模型等技术中心思想的基础上, Hadoop大数据处理平台应运而生,随后学术界和企业界围绕这些模型框架系统提出了一系列改进或者提出一些新的模型框架和系统.在大数据处理中,有越来越多的应用场景和增量数据有关,即数据随着时间的推移快速增加或有小的改变,为了处理这一类问题,需要设计系统只处理增加的数据而不需要对所有数据重新计算.本文在hourglass系统的基础上结合Hadoop对MapReduce模型的具体实现提出了一种新的增量计算框架,可以根据数据特性选择适合的处理方式进行增量计算,提高增量计算效率.
其他文献
  在车联网的应用实践中,我们将分析车辆数据的任务运行在流式计算系统中。在运行分析中发现,这些任务具有运行周期长、处理延迟低、任务有状态等需求和特点,并且计算过程中需
会议
煤焦油中,沸点高于360℃的重组分物质(如沥青)组分含量高,大约可占煤焦油总量的50%。在热解实验中,该部分重质组分极易沉积,会导致装备中灰尘的夹带,进而堵塞和污染下游设备(如管道、
  基于列族的数据存储面向诸如RDF数据等无结构或半结构数据.人们通常从频繁的相关列中抽取列族.对相关列进行关联挖掘会使得列族之间会出现覆盖,这是列族存储的新趋势.在传
会议
  在许多机器学习问题中,往往需要研究高维数据中各个特征之间的统计相关性。稀疏高斯图模型作为解决这一问题的有效方法之一,广泛应用于数据挖掘、生物信息、金融分析等应用
会议
海南岛长昌盆地长昌组植物化石十分丰富,其多样性可以与世界上其它任何始新世植物群相媲美,是了解低纬度地区古近纪植物群,尤其是了解亚洲热带地区植物多样性及其起源的的重要化
  伴随车辆是指在一段持续的时间内一起移动的车辆组群。本文提出了一种基于流式大规模车牌识别数据集的伴随车辆即时发现方法。与已有工作相比,本文主要贡献在于:能够即时发
糖尿病(diabetes mellitus,DM)是一种慢性终身性疾病,严重威胁患者的身心健康。本研究主要从骆驼奶对1型糖尿病(type 1 diabetes mellitus,T1DM)的预防,骆驼奶对T1DM的辅助治
软组织的修复重建是涉及重建外科和美容整形外科的重要领域,其中众多病症需要对软组织进行填充和增强。作为细胞固定化材料和生化药物控制释放载体,海藻酸钙凝胶微球已被广泛
  本文针对目前基于智能手机的情绪识别研究中所用数据较为单一,并不能全面的反应用户行为模式,进而并不能真实反应用户情绪这一问题展开研究,基于智能手机从多个维度全面收集
会议
  在收集到大数据后,企业(如医疗系统)面临着保护数据安全,防止隐私泄露的问题。访问控制作为保护数据的经典方法在大数据场景下面临着新的问题:面对大数据,制定准确的访问控制
会议