基于Spark平台的网络数据分析系统的设计与实现

来源 :北京邮电大学 | 被引量 : 4次 | 上传用户:yoclin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的快速发展,内容分发网络(CDN)在互联网架构中起到重要作用,用户的上网记录也被记录在CDN服务提供商的网络日志中。各大CDN厂商都有一些通用的分析海量网络数据的需求,他们的PM管理人员,运营人员等非技术人员都需要对这些网络数据做一些通用的数据分析工作。针对CDN服务提供商,目前市场上缺少一个通用的网络数据分析服务平台。因此,为CDN厂商提供一个通用的,没有大数据平台使用门槛的网络数据分析服务平台有着迫切的需求。为了设计出一个通用的、操作简单、易扩展的分析海量网络数据的服务平台,本文利用现有的分布式框架设计并实现了基于Spark平台的网络数据分析服务平台。本文的主要工作有:(1)基于Spark大数据技术实现对海量网络数据的预处理以及处理分析。本文根据网络数据的特点,设计实现了网络数据分析服务工具;(2)对大数据平台Web化技术的研究。本文主要研究了如何在Web平台上浏览分布式存储引擎上的网络数据以及如何通过Web平台执行海量网络数据分析任务;(3)基于Yarn对整个大数据平台的管理机制,分析了资源管理器Yam和计算引擎Spark之间的关系,研究了如何通过监控Yarn来实现监控大数据平台中的Spark任务,从而保证整个系统平台的可用性;(4)研究了关于大数据分析结果的可视化。通过对第三方可视化插件的研究,提出引入Echarts将大数据分析结果呈现到页面中。根据对相关技术研究所取得的解决方案,本文实现了基于Spark平台的数据分析功能和大数据、平台的Web化,并通过实验验证了这些功能和平台的有效性。基于以上关键技术方案的实现,本文完成了网络数据分析服务平台的开发,为用户提供了相关的网络数据分析功能,网络数据预览功能,结果数据可视化,系统监控功能等功能,为掌握用户的上网行为特征提供一个平台,同时也为各大网站提供方和CDN厂商优化自身服务创造了条件。
其他文献
宁波作为港口城市,自对外开放政策实施以来,其经济发展伴随着对外贸易的迅速发展而高速增长。1978年宁波市的GDP是20.17亿元,2006年已达到2864.49亿元,增长了约142倍,而人均GDP达到
无人机凭借其机动性强、续航时间长、载重能力大、安全性高及成本低等特点,已在军用、警用及民用领域发挥了越来越重要的作用,成为军事应用、警用应用及民用应用的重要手段。
目的:分析热带地区恶性血液病住院患者有呼吸道症状的群体中痰及静脉血培养的病原菌感染的特点,并观察其耐药性,为临床治疗提供病原学依据。方法:回顾性分析2013年1月--2017
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
目的对比临床血糖检验中快速血糖仪与常规生化仪的检验结果。方法选取2015年2月-2016年9月因各类疾病于我院进行住院治疗的88例患者作为此次研究对象,患者分别采用常规生化仪
目的 研究卡培他滨维持治疗晚期乳腺癌的临床效果。方法 本次研究选取的研究对象为2014年11月—2016年11月在我院进行治疗的晚期乳腺癌患者,将54例患者计算机随机分为2组,27
群众音乐文化是群众文化的一部分,也是构建和谐社会的重要内容。发展群众音乐文化对提高人的素质、促进社会稳定有重要的意义。对群众音乐文化发展问题进行了探讨。 The mas
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技