论文部分内容阅读
随着互联网技术的进步,信息社会不断发展,数据呈爆炸式的增长。一方面数据量的增长给企业的存储要求和计算要求带来了新的挑战,另一方面数据中蕴藏着巨大的有用信息,企业的运营需求也在增加。对于企业来说这些数据中包含着用户使用产品的特征,用户对于哪种产品更加喜好以及用户的行为特征等等信息,这都是企业掌握市场动向的数据来源。然而传统的数据分析平台中,数据一般存储在关系型数据库中。但是数据量的不断增长,单服务器执行任务的这种特性,不管是在计算还是存储能力上都遇到了瓶颈,在其扩展性上也有很大的限制。因此,本课题设计和实现了基于Hadoop的分布式架构的海量业务数据分析系统。本文首先介绍了课题的相关背景,研究了与本课题相关的技术理论知识,包括Hadoop整体框架,Hive、Flume、Redis开源组件。随后结合企业人员的运营分析需求对本系统进行了详细的需求分析,包括功能性需求,非功能性需求以及用例分析。接着对系统进行了整体架构设计,将系统分为五个设计模块,数据收集模块、数据预处理模块、数据分析模块、监控模块、数据展示模块。根据各个模块的具体需求,本文对各个模块进行了详细设计,结合流程图和相关代码进行了具体描述。同时,在数据各个环节中进行了监控,保证数据的准确。最后对系统进行了数据测试和效果展示,表明达到了预期效果。本课题设计的海量业务数据分析系统基于分布式架构,克服了传统数据库计算效率低、存储空间小的缺点,将大的数据文件分散到各个数据节点进行并行计算,分散了计算负担,提高了计算效率。同时,本系统提供了良好的数据备份和错误恢复能力。目前本系统已经在某公司正式应用。