论文部分内容阅读
随着互联网技术的快速发展,内容分发网络(CDN)在互联网架构中起到重要作用,用户的上网记录也被记录在CDN服务提供商的网络日志中。各大CDN厂商都有一些通用的分析海量网络数据的需求,他们的PM管理人员,运营人员等非技术人员都需要对这些网络数据做一些通用的数据分析工作。针对CDN服务提供商,目前市场上缺少一个通用的网络数据分析服务平台。因此,为CDN厂商提供一个通用的,没有大数据平台使用门槛的网络数据分析服务平台有着迫切的需求。为了设计出一个通用的、操作简单、易扩展的分析海量网络数据的服务平台,本文利用现有的分布式框架设计并实现了基于Spark平台的网络数据分析服务平台。本文的主要工作有:(1)基于Spark大数据技术实现对海量网络数据的预处理以及处理分析。本文根据网络数据的特点,设计实现了网络数据分析服务工具;(2)对大数据平台Web化技术的研究。本文主要研究了如何在Web平台上浏览分布式存储引擎上的网络数据以及如何通过Web平台执行海量网络数据分析任务;(3)基于Yarn对整个大数据平台的管理机制,分析了资源管理器Yam和计算引擎Spark之间的关系,研究了如何通过监控Yarn来实现监控大数据平台中的Spark任务,从而保证整个系统平台的可用性;(4)研究了关于大数据分析结果的可视化。通过对第三方可视化插件的研究,提出引入Echarts将大数据分析结果呈现到页面中。根据对相关技术研究所取得的解决方案,本文实现了基于Spark平台的数据分析功能和大数据、平台的Web化,并通过实验验证了这些功能和平台的有效性。基于以上关键技术方案的实现,本文完成了网络数据分析服务平台的开发,为用户提供了相关的网络数据分析功能,网络数据预览功能,结果数据可视化,系统监控功能等功能,为掌握用户的上网行为特征提供一个平台,同时也为各大网站提供方和CDN厂商优化自身服务创造了条件。