基于Hadoop平台的大数据应用系统架构的研究与实现

被引量 : 14次 | 上传用户:liqwart2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着Web2.0概念的兴起,“用户生成内容”:(User Generated Content, UGC)得到了广泛的关注。同时由于“大数据时代”的来临,以新浪微博为代表的新兴社交网络媒体每天产出大量的富含巨大商业、社会价值的UGC内容,仅以传统的数据挖掘系统分析这些UGC内容已经很难跟上“时代”的步伐。于是,如何提供一个可靠的大数据处理平台将是一个非常有意义的研究项目。通过研究Hadoop核心技术及其生态环境中的一些子项目,本文实现了一个用于处理大规模数据集的可扩展的大数据应用系统架构并以层次模型的方式将该架构组织为四个层次:平台层、数据层、业务逻辑层和应用层。本文也从层次这个角度出发,以章为单位具体介绍了各层主要技术的细节与优化。分别探讨了诸如Hadoop、HBase的优化;MapReduce编程模式;Mahout技术细节与聚类等算法实现方式等等。之后,结合顾客价值层次模型(CVH)和神经网络分类模型,提出了一个分布式品牌价值模型并成功部署在架构应用层之上,完善了整个系统架构的研究与实现。最后,论文总结了各层的研究内容对可能需要完善和改进的部分进行了说明,并讨论了相应部分未来可行的研究方向。
其他文献
<正>云计算是IBM"智慧的地球—动态架构"中的重要组成部分,它帮助企业实现硬件和软件资源的统一管理、统一分配、统一部署、统一监控和统一备份,从而降低成本,加速企业创新。
《霍尔堡组曲》,也称《霍尔堡时代》(From Holberg’s Time)是格里格为纪念十八世纪启蒙作家路维德克·霍尔堡诞辰200周年而作的纪念性作品。由于霍尔堡所处时代正当音乐史上
智能高分子水凝胶是一类受外界环境的温度、pH值、光、电、磁、化学物质等的刺激,自身性质会随之发生变化的聚合物,具有传感、处理和执行功能。由于多肽及蛋白质药物生物半衰期
民办高等教育随着多元化经济体制的发展在我国逐步发展壮大。民办高校的数量与办学规模与日俱增,弥补了公办高校在数量、结构、种类、分布地域等方面的不足,弥补了经济发展对
脂肪干细胞(adipose-derived stem cells,ADSCs)是存在于脂肪组织的间充质干细胞,具有多向分化潜能,在特定的条件下可以分化为脂肪细胞、成骨细胞、成软骨细胞等中胚层细胞,
目的确定湘蕾金银花最佳采收时间和干燥方法。方法采用高效液相色谱法测定花蕾的绿原酸含量。结果不同时间采收的湘蕾金银花花蕾绿原酸的含量以随着花蕾增长而下降;一天中不同
香港在九七年之前一直游离于中国主权之外,殖民臣属的现实使得香港多年来延续着对于城市身份意识的模糊与焦虑。拍摄于九十年代初期的电影《上海假期》着眼于普通家庭的生活,
目的:本文通过观察补肾促排卵汤治疗多囊卵巢综合征致不孕的临床效果,评价其疗效和安全性,为中医治疗多囊卵巢综合征致不孕提供一些新的思路和方法。方法:收集2012年12月2013年6
近年来,随着国内经济形势的日益严峻,企业内部财务控制已经发展成为一个十分重要的模块,引起了各方面专家及学者的关注。本文中,笔者同样围绕&#39;企业内部财务控制的问题与
目前,勘探目标所处地质环境日益复杂,埋深逐渐增大,使得单一地球物理勘探方法往往难以取得高质量的实测资料。并且,各类地球物理勘探方法均存在局限性,如:地震勘探容易受到屏蔽层的