基于jupyter的大数据分析工具在网络优化领域的应用研究

来源 :中国新通信 | 被引量 : 0次 | 上传用户:paulhujq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘要】    目的:介绍Jupyter Notebook在网络优化领域的应用情况。方法:集成Hadoop、Spark、Jupyter Notebook 等开源工具,搭建网络优化分析平台,基于真实案例验证其在网络优化领域应用的可行性。结果:通过搭建大数据计算环境,成功实现多数据接入、分布式运算、分布式存储、交互式应用及结果展示等功能,并基于该平台完成网络整体问题分析、问题原因定位分析、问题处理方案分析、问题处理效果分析等大数据分析任务。结论:结合网络优化的大数据分析需求,搭建便于使用的大数据分析环境,提升基于大数据的网络优化分析能力。
  【关键词】    大数据    Jupyter Notebook   Hadoop    Spark    分布式计算    网络优化
  引言:
  随着无线通信网络的快速发展,网络优化信息化、智能化建设进入了突飞猛进的发展阶段,积累了大量的MR(测量报告)、PM(性能数据)、NRM(网络资源管理)、工参等基础数据。这些数据资源的价值还未能充分的挖掘,如何从各维度大量数据中发现可用的信息,加速网络优化信息化、智能化进程是迫在眉睫的任务。通过对网优大数据特性及网优工作协作方式与Jupyter Notebook进行结合性研究,实现有效的且适用于网优的大数据分析,以满足网络优化分析需求。
  一、 jupyter与网络优化分析处理的结合
  1.1 Jupyter Notebook[1] 技术与网络优化分析应用结合
  Jupyter是一个可交互的记事本,支持了Python[2]、Julia、JavaScript、R等等编程语言达40 多种。它是一个开源的Web 应用程序,在其环境中可以运行代码和记录代码,可以对数据进行清洗,可以通过可视化视图查看数据结果,可以进行大数据相关的数模转换、模型构建、机器学习训练等。
  如图1所视,Jupyter Notebook的系统架构包括人机交互、浏览器、服务器、核心、文件等,其中服务器为核心构件。网优分析人员通过浏览器连接到服务器,在Web中编写代码并将代码发送到内核,由内核执行,于将结果反馈到Web页面。个人编写的代码保存在服务器中,可共享给其他人员使用。
  1.2 JupyterHub[3]技术与网优工作流程结合
  JupyterHub支持多个用户(包括管理人员、网优人员和维护人员等)同时构建自己的工作空间和计算环境,共享或使用其他人的资源,以达到联机协作的目的。
  1.3 HDFS[4]与jupyter结合作大数据存储
  Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统(Distributed File System),用于存储网络优化分析所需的各类型各维度数据。
  1.4 Spark[5]与jupyther结合作大数据计算
  Spark 提供了80多个高级运算符。一方面,Spark提供了支持多种语言的API,使得用户开发Spark程序十分方便。另一方面,Spark是基于Scala语言开发的,使得Spark应用程序代码非常简洁。同时由于spark基于内存,在网优大数据处理领域,性能比hadoop快。
  二、基于jupyter的网络优化分析平台架构
  网络优化分析平台的建设面向基于大数据的网络分析优化需求,以网优问題分析定位为主要目的,结合MR、PM、NRM、CM等数据特点,主要以满足网络优化问题定位为主。网络优化分析平台的总体架构图见图2,包括网优数据的采集解析、基于不同数据类型的分布式存储、各类型数据不同维度的分布式运算、各类型数据的组合应用层以及用户界面应用。
  2.1 用户界面
  界面提供给网优工作人员进行网优工作信息交互,实现网络信息的内部组合形式与网优人员可以接受的按照既定业务逻辑形式之间的转换。
  2.2 应用层
  应用层为网优人员提供了自行代码编写、程序调试及结果展示的功能,利用JupyterHub实现多个网优人员的Notebook管理,同时也提供了HIVE、PIG等传统的大数据统计分析工具供网优人员选择。
  2.3 分布式运算
  基于Spark框架,利用Spark Streaming、Spark SQL、GraphX、MLlib等核心组件,实现网络优化各类型各维度数据统计。
  2.4 分布式存储
  网络优化分析大数据平台采用HDFS作为分布式存储的文件系统,HDFS有着高容错性(fault-tolerant)的特点,而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。从而支持网优人员在HBase[6]或HDFS上对数据进行查询、编辑等操作。
  三、应用案例
  3.1 4G MR竞对深度分析
  本案例对超过300亿条MR测量记录进行按天各运营商覆盖优劣分析。首先将数据(.xml格式)采集解析清洗并转换为parquet [7] 格式存储到HDFS中,然后根据查重条件对数据进行聚合统计,得到按天的各行政区划各场景的运营商覆盖率、优于竞争对手的小区数、劣于竞争对手的小区数,得到覆盖率优于或劣于竞争对手的行政区划数、场景数,计算任务利用Spark分布式计算框架来完成,通过jupyter连接数据库,可以对数据进行开发,数据建模,最后利用Python包matpoltlib图形化展示各运营商各行政区划、各场景的覆盖率、优于或劣于竞争对手小区数的对比分析结果,支持快速定位覆盖率差的行政区或场景,支持快速定位优于或劣于竞争对手的行政区或场景,作为支撑后续基于覆盖优化的天馈调整、参数调整及网络规划工作的依据。   3.2 4G分頻段对比分析
  本案例对超过30亿条PM数据、超过300亿条的MR测量记录、超过1千万条NRM数据进行按天分析。首先对数据进行数据采集解析清洗存储到HDFS中,然后根据NRM匹配出有效的工参数据,再按照工参数据中的频段属性进行分频段聚合统计,得到按天的各频段按频段、按行政区划、按场景、按基站的干扰类、接入类、保持类、容量类、移动类、负荷类、语音类、覆盖类指标数据,计算任务利用Spark分布式计算框架来完成,通过jupyter连接数据库,可以对数据进行开发,数据建模,最后利用Python包matpoltlib图形化展示4G分频段的各类指标,支持按指标类的不同行政区域对比、不同场景对比,支持按行政区划、按场景的不同类指标对比,支持按行政区域、按场景的某一类内多个指标对比,作为支撑后续指标差原因分析、指标优化分析、参数调整、负荷均衡、硬件扩减容、LICENSE调整、频段调整、PCI调整、邻区调整的依据。
  四、结束语
  基于Jupyter Notebook的网络优化大数据分析应用,构建易于使用的网络优化分析大数据平台,能够快速高效为网优人员提供大数据分析计算环境,解决日常网络优化的大量数据分析处理问题。同时由于网络优化分析平台的信息安全级别要求较高,使得基于开源产品建设的平台维护难度较大,需要进行有效的完全管理后才能作进一步的推广。
  参  考  文  献
  [1] Jupyter.The Jupyter notebook 5.4.0 documentation[EB/OL].https://jupyter-notebook.readthedocs.io/en/5.4.0/.
  [2] Python. 3.9.1 documentation[EB/OL].https://docs.python.org/3/.
  [3] Jupyter.JupyterHub-JupyterHub documentation [EB/OL]. https://jupyterhub.readthedocs.io/en/stable/.
  [4] Hadoop A.Hadoop-Apache hadoop 3.2.2[EB/OL]. http://hadoop.apache.org/docs/r3.2.2/.
  [5] S p a r k . O v e r v i e w -Documentation[EB/OL]. http://spark.apache.org/docs/latest/.
  [6] Apache.Apache HBase-Apache HBase? Home [EB/OL]. https://hbase.apache.org/.
  [7] Parquet.Apache parquet[EB/OL].http://parquet.apache.org/documentation/latest/.
其他文献
【摘要】 网络性能测试中需要构造多种数据发向被测设备,目前已有的测试方法大多使用固定的流量模型和固定变化模式,无法真实反映网络负载的特征。本文提出一种结合Sketch计数和数据流元数据压缩复原的网络测试数据生成方法,其中Sketch用来学习网络中真实的数据流分布情况,元数据则采用压缩的方式保存负载特征,在测试时将被压缩的元数据恢复成测试数据并按Sketch统计值发送,从而以更加真实的仿真数据流完
为了更准确的对图像中的目标物体进行识别,科学家研发了目标检测技术,其是计算机视觉的重要组成。最近几年深度学习越来越普及,基于深度学习的目标检测技术具有更高的准确率和检测效率,可以应用在很多领域,然而应用过程中还存在一些影响深度学习目标检测的发展的问题急需解决,基于此,本文对目标检测概念进行了简单介绍,并对深度学习目标检测算法进行了归纳总结,对深度学习目标检测中存在的问题和未来发展进行了探究,希望可
【摘要】 本文通过重大突发事件下高校网络舆情传播特点的分析,探讨了在全媒体时代如何应对网络舆情的传播,运用议程设置理论对新媒体环境下的网络舆情传播进行分析,并明确提出应对措施:一是及时准确发声,提升网络舆情引导能力;二是提高管理者媒介素养;三是建立高度预警机制;四是强化信息发布平台的日常管理工作。  【关键词】 突发事件 网络舆情 议程设置  引言:  近年来,习近平总书记提出各级领导干部
【摘要】 在铁路通信工程当中,应用多网融合技术可以进一步提高铁路数据通信网以及综合计算机网的使用效率和效果,同时也可以使得铁路调度指挥信息管理系统的网络传输质量和效率得到全面的提高,整个系统和网络的可靠性以及业务承载能力得到有效的增强,这种可以满足各个路段的使用需求,确保我国铁路通信工程处在高质量的发展阶段当中。目前多网融合技术在我国铁路通信工程当中应用时,还存在一些问题,这些问题制约了整体的发
【摘要】 随着互联网信息发布平台日益增多,网民发表情感的方式也逐渐多元化,其中反讽这一特殊修辞手法得到了广泛使用,对其的识别也变得日益迫切。为了更好的识别微博语料中的反讽语句,研究了一种改进后卷积神经网络模型。卷积神经网络是人工智能领域的一个重要组成部分,应用范围极其广泛,也是目前人工智能领域的研究重点。卷积神经网络凭借着特征自主学习的优势在自然语言处理方面有着出色的表现。通过实验,利用特征与词
【摘要】 企业采用电气自动化仪表,可以显著提高生产效率,确保系统安全性和稳定性。运用自动生产流程可以实现无人值守,有效减轻企业成本支出。本文重点研究企业电气自动化应用以及生产管理制度措施,明确企业生产电气自动化主要设备构成,提高对自动化设备生产管理效果,保证企业稳定运行。  【关键词】 电气 自动化仪表 自动化控制技术  引言:  在我国现阶段社会发展过程中,大部分行业广泛应用电气自动化技
【摘要】 随着信息技术的发展,人类社会已经进入“互联网+”时代,它对人们的生产、生活和学习等产生了深刻的影响,不仅丰富了教学的手段,还催生了基于“互联网+”的新型学习环境。本文对“互联网+”时代课堂学习环境要素进行分析,并借助数字时代新学习理论——关联主义对学习环境要素的关系进行重构,旨在为“互联网+”背景下课堂学习环境设计和建构提供新的线索和思路。  【关键词】 关联主义 互联网+ 学习
【摘要】 随着运营商家庭宽带业务大规模发展,提升运营商家庭宽带用户上网感知和用户满意度变得更加迫切。某地市运营商部署实施家宽大数据端到端分析平台,以实现对家庭宽带用户全方位的感知评估,主动定界用户投诉根源及网络资源和性能瓶颈;同时通过数据挖掘及用户行为建模,做到用户感知预警,对具有潜在离网风险的用户和沉默用户等进行主动发现和关怀,进行针对性的市场营销,达到提升用户满意度的目的。  【关键词】
【摘要】 本文结合天津市第五中心医院(北京大学滨海医院)网站近年来设计、开发、维护、升级的实际经验,浅析在当前信息化趋势下,定位为区域医疗中心的大型三甲医院门户网站的开发理念、设计思路以及实施方案,对运行中的使用反馈和维护便利性进行讨论。  【关键词】 医院网站 网站设计 PHP MySQL  ABSTRACT:Combined with the practical experience
【摘要】 非物质文化遗产的数字化保护研究是立足于传统的传承人保护基础上以数字化手段拓宽非物质文化遗产的生存环境,从而保障非物质文化遗产健康传承的目的。本文基于大数据背景下的非物质文化遗产保护现状与特征,研究数字化技术对于非物质文化遗产保护产生的意义,借鉴协同系统理念与绿色基础设施理念而构思温州市非物质文化遗产数字化体系,最终形成“体系”至 “子系统”的格局,“非遗斑块”+“数字廊道”+“非遗基质