基于Storm的数据迁移工具的设计与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:easy69
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据作为政府机构和企业单位的核心资产,在几十年的信息技术变革中,逐渐显现其金子般的色彩。随着数据量的增长,人们所面临的数据迁移难度越来越大。在进行应用迁移和数据分析时,数据迁移的效率逐渐引起了相关人员的重视。从海量数据迁移需求的角度,参考已有的数据迁移工具,以Apache Storm为底层分布式数据流处理引擎,构建了一个面向海量数据迁移需求的高效异构数据迁移工具。该数据迁移工具在结构上主要分为任务划分与分发和分布式数据流两部分。这两部分相互配合,共同完成了数据迁移任务。其中分布式数据流实现了数据抽取、数据转换和数据装载。通过实现Storm中的Spout组件接口以及对异构数据源的适配完成了对数据源的数据抽取,通过实现Storm中Bolt组件接口完成了数据转换和装载,并且可以通过动态编译代码脚本的方式实现了灵活的自定义转换。任务划分与分发主要是对待迁移任务的划分和分发。每一个待迁移的数据库表对应一个任务,任务的划分就是选择数据库表的一个划分字段,根据划分字段将表划分成多个部分,每一个部分对应一个子任务。任务分发则是以Zookeeper作为中介,首先将划分得到的子任务发布到Zookeeper集群中,然后由数据抽取节点从Zookeeper中获取任务执行。此外,为了达到较高的可用性和可靠性,在任务划分与分发节点和数据抽取节点之间利用Zookeeper实现了节点注册和状态检测等功能。最后通过实验表明,该数据迁移工具满足了设计目标,实现了高效的数据迁移功能。
其他文献
主要论述了MySQL开源数据库的特点,介绍在微软.NET框架下如何与MySQL数据库集成,并且利用此技术开发企业能耗系统,给出一种设计与实现的方法。
设计了一种专门用以处理铜镉渣的"反向浸出-空气氧化除铁-锌粒振动净化"制液新工艺,并按此新工艺进行了流程试验.结果表明:新工艺可对高杂质含量的铜镉渣浸出液进行有效处理,
蒙代尔在1999年荣获诺贝尔经济奖之后预言,在未来10年中将出现三大货币区:欧元区、美元区和"亚元"区。他把这三个货币区称为国际金融体制稳定的三足鼎立。然而十年已经过去,
2012年,伴随着我国新医院会计制度的实施,我国医院会计质量和财务透明度有了进一步提高。同时,医院财务分析在医院日常管理和决策中的重要性也日益凸显。新医院会计制度的实
随着广播发射台信息化建设的迅速发展,各种广播发射机及其附属设备的自动化系统应运而生,相应的数据库规模也不断扩大,传统的数据查询和报表工具已经无法满足从这庞大的数据
2009年哈尔滨大冬会为黑龙江省高校冰雪体育文化发展带来了极大机遇,必将对黑龙江省高校冰雪体育文化和谐发展起到强劲的推动作用。运用理论分析和调研方法,全面阐述了喜迎2009
伦理道德作为实践理性,当以“意识—意志”的复合为研究对象,因而现象学意义上的意识和法哲学意义上的意志,就是合理的伦理体系和伦理精神的两个理想要素,由此伦理学的研究必
历史总是相似的,每一次环境的震荡都会引发一场影响深远的变革。虽然我们并不能准确知道煤炭行业未来的规则和格局将产生怎样的变化,但我们应该确信未来是探索的合集,变革正
期刊
城市更新伴随着我国城市化进程,是促进城市社会经济发展的重要手段。它涉及法规政策、土地权属、拆迁补偿安置、文化传承等诸多问题。我国存在的城乡二元体制导致很多旧城镇