基于Hadoop的海量业务数据分析平台的设计与实现

来源 :北京邮电大学 | 被引量 : 4次 | 上传用户：greenranqingiqng

【摘要】

：

随着互联网技术的进步,信息社会不断发展,数据呈爆炸式的增长。一方面数据量的增长给企业的存储要求和计算要求带来了新的挑战,另一方面数据中蕴藏着巨大的有用信息,企业的运

【作者】

：

魏迪

【出处】

：

北京邮电大学

【发表日期】

：

2014年01期

【关键词】

：

数据分析分布式 Hadoop Hive Flume

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网技术的进步,信息社会不断发展,数据呈爆炸式的增长。一方面数据量的增长给企业的存储要求和计算要求带来了新的挑战,另一方面数据中蕴藏着巨大的有用信息,企业的运营需求也在增加。对于企业来说这些数据中包含着用户使用产品的特征,用户对于哪种产品更加喜好以及用户的行为特征等等信息,这都是企业掌握市场动向的数据来源。然而传统的数据分析平台中,数据一般存储在关系型数据库中。但是数据量的不断增长,单服务器执行任务的这种特性,不管是在计算还是存储能力上都遇到了瓶颈,在其扩展性上也有很大的限制。因此,本课题设计和实现了基于Hadoop的分布式架构的海量业务数据分析系统。本文首先介绍了课题的相关背景,研究了与本课题相关的技术理论知识,包括Hadoop整体框架,Hive、Flume、Redis开源组件。随后结合企业人员的运营分析需求对本系统进行了详细的需求分析,包括功能性需求,非功能性需求以及用例分析。接着对系统进行了整体架构设计,将系统分为五个设计模块,数据收集模块、数据预处理模块、数据分析模块、监控模块、数据展示模块。根据各个模块的具体需求,本文对各个模块进行了详细设计,结合流程图和相关代码进行了具体描述。同时,在数据各个环节中进行了监控,保证数据的准确。最后对系统进行了数据测试和效果展示,表明达到了预期效果。本课题设计的海量业务数据分析系统基于分布式架构,克服了传统数据库计算效率低、存储空间小的缺点,将大的数据文件分散到各个数据节点进行并行计算,分散了计算负担,提高了计算效率。同时,本系统提供了良好的数据备份和错误恢复能力。目前本系统已经在某公司正式应用。

其他文献

自贡盐业契约研究

随着综合国力的增长,中国社会日渐进入艰难的世纪转型,契约理念与契约价值的双重缺失却导致社会转型步履维艰——资源与利益、公与私、官与民的矛盾激增,竭泽而渔式的纯功利

学位

盐业契约资本土地社会转型

转移性结直肠癌全身治疗原则、现状和进展

大多数转移性结肠癌或直肠癌（metastatic colorectal cancer，mCRC）不能治愈，但一些局部复发或转移的mCRC，经手术切除等治疗后可获得长期生存。靶向药物明显提高了mCRC的生存，将中位

期刊

转移性结直肠癌治疗原则全身转移性结肠癌局部复发长期生存手术切除靶向药物

山东省高校体育舞蹈专业学生培养的研究

高校体育舞蹈教学作为一项技术性和艺术性非常强的项目，在高校专业教育实施的过程中，受到了大学生的喜爱和广泛参与。从上世纪八十年代开始，体育舞蹈在中国的传播得到了快速的发

学位

山东省高校体育舞蹈专业培养课程设置

刑讯逼供罪司法适用问题研究

在我国，刑讯逼供已经成为司法制度上的一个毒瘤，是产生刑事错案的主要原因。虽说我国现行刑法在我国1979年刑法的基础上对刑讯逼供罪作了修改，但是在司法实践中对该罪的适用仍然

学位

刑讯逼供罪教唆行为转化犯免予刑事处罚

江西省乡镇卫生院卫生人才队伍建设研究

我国是农业大国，农民是最大的社会群体，是建设全面小康社会的重要力量。作为“农村三级医疗卫生服务网络”的枢纽，乡镇卫生院是农村卫生服务的主要提供者。卫生事业要发展，卫生人

学位

乡镇卫生院卫生人才研究

前列腺癌临床进展分析

前列腺癌（prostate cancer）是威胁中老年男性健康的常见肿瘤,在美国成年男性人群中,前列腺癌发病率已超过肺癌,病死率仅次于肺癌成为首位危害男性健康的肿瘤[1-2].在我国,随着

期刊

前列腺癌患者血清前列腺特异性抗原临床男性健康癌发病率男性人群生活方式预期寿命

浙江省肺癌地理流行病学研究

目的探索浙江省肺癌的地理分布特征及影响其分布的地理因素,为病因学研究提供线索。方法收集2011年浙江省部分县市的肺癌发病、气候地理相关因素资料,运用地理信息系统分析浙

学位

肺癌空间流行病学空气质量地理信息系统

浙江省沙门菌的分子分型和流行病学研究

目的：沙门菌是引起人类腹泻和伤寒症的主要致病菌。沙门菌引起的Reiter’s综合症,可持续数月或数年,并可导致难以治疗的慢性关节炎。沙门菌所致细菌性食物中毒暴发起数和发病

学位

沙门菌血清型多重PCR毒力基因多位点序列分型

基于Hadoop的海量业务数据分析平台的设计与实现

其他学术论文