基于Hadoop的海量业务数据分析平台的设计与实现

来源 :北京邮电大学 | 被引量 : 4次 | 上传用户:greenranqingiqng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的进步,信息社会不断发展,数据呈爆炸式的增长。一方面数据量的增长给企业的存储要求和计算要求带来了新的挑战,另一方面数据中蕴藏着巨大的有用信息,企业的运营需求也在增加。对于企业来说这些数据中包含着用户使用产品的特征,用户对于哪种产品更加喜好以及用户的行为特征等等信息,这都是企业掌握市场动向的数据来源。然而传统的数据分析平台中,数据一般存储在关系型数据库中。但是数据量的不断增长,单服务器执行任务的这种特性,不管是在计算还是存储能力上都遇到了瓶颈,在其扩展性上也有很大的限制。因此,本课题设计和实现了基于Hadoop的分布式架构的海量业务数据分析系统。本文首先介绍了课题的相关背景,研究了与本课题相关的技术理论知识,包括Hadoop整体框架,Hive、Flume、Redis开源组件。随后结合企业人员的运营分析需求对本系统进行了详细的需求分析,包括功能性需求,非功能性需求以及用例分析。接着对系统进行了整体架构设计,将系统分为五个设计模块,数据收集模块、数据预处理模块、数据分析模块、监控模块、数据展示模块。根据各个模块的具体需求,本文对各个模块进行了详细设计,结合流程图和相关代码进行了具体描述。同时,在数据各个环节中进行了监控,保证数据的准确。最后对系统进行了数据测试和效果展示,表明达到了预期效果。本课题设计的海量业务数据分析系统基于分布式架构,克服了传统数据库计算效率低、存储空间小的缺点,将大的数据文件分散到各个数据节点进行并行计算,分散了计算负担,提高了计算效率。同时,本系统提供了良好的数据备份和错误恢复能力。目前本系统已经在某公司正式应用。
其他文献
随着综合国力的增长,中国社会日渐进入艰难的世纪转型,契约理念与契约价值的双重缺失却导致社会转型步履维艰——资源与利益、公与私、官与民的矛盾激增,竭泽而渔式的纯功利
大多数转移性结肠癌或直肠癌(metastatic colorectal cancer,mCRC)不能治愈,但一些局部复发或转移的mCRC,经手术切除等治疗后可获得长期生存。靶向药物明显提高了mCRC的生存,将中位
高校体育舞蹈教学作为一项技术性和艺术性非常强的项目,在高校专业教育实施的过程中,受到了大学生的喜爱和广泛参与。从上世纪八十年代开始,体育舞蹈在中国的传播得到了快速的发
在我国,刑讯逼供已经成为司法制度上的一个毒瘤,是产生刑事错案的主要原因。虽说我国现行刑法在我国1979年刑法的基础上对刑讯逼供罪作了修改,但是在司法实践中对该罪的适用仍然
我国是农业大国,农民是最大的社会群体,是建设全面小康社会的重要力量。作为“农村三级医疗卫生服务网络”的枢纽,乡镇卫生院是农村卫生服务的主要提供者。卫生事业要发展,卫生人
前列腺癌(prostate cancer)是威胁中老年男性健康的常见肿瘤,在美国成年男性人群中,前列腺癌发病率已超过肺癌,病死率仅次于肺癌成为首位危害男性健康的肿瘤[1-2].在我国,随着
目的探索浙江省肺癌的地理分布特征及影响其分布的地理因素,为病因学研究提供线索。方法收集2011年浙江省部分县市的肺癌发病、气候地理相关因素资料,运用地理信息系统分析浙
目的:沙门菌是引起人类腹泻和伤寒症的主要致病菌。沙门菌引起的Reiter’s综合症,可持续数月或数年,并可导致难以治疗的慢性关节炎。沙门菌所致细菌性食物中毒暴发起数和发病