基于Spark技术的实时网络流量异常检测研究

来源 :兰州交通大学 | 被引量 : 11次 | 上传用户:smalldong224
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Spark技术是一项基于内存计算,继Hadoop技术之后在云计算领域出现的新一代通用并行计算的开源技术,在机器学习方面有着无与伦比的优势,特别适合出现多次迭代计算需求的算法,并在交互式查询、云计算、图计算等领域有着广泛的应用。由于Spark拥有非常出色的容错和调度机制,可以确保系统稳定地运行,并且它还是一个集SQL、机器学习、图计算、流处理等多种功能于一体的计算框架,具有非常好的易用性。目前,Spark技术已经构建成了一套完整的大数据处理生态系统,在流处理、图技术、机器学习、NoSQL查询等方面都具有自己的特色。此外,Spark采用全栈技术解决了云计算数据处理的核心问题,使得在现阶段,Spark技术在云计算等大数据领域中成为研究热点。论文在详细阐述国内外关于Spark研究现状的基础上,针对目前存在的难点问题,以Spark全栈框架中的各个组件及其应用为基础,对网络流量异常检测技术的应用问题展开讨论和研究,本论文的主要贡献有以下两个方面:本论文首先研究了网络流量异常检测技术在Spark平台上的应用,利用Spark平台上的MLlib算法库、Streaming K-means和随机森林算法分别作为入侵检测的第一级和第二级模型,作用于不同阶段中网络流量数据的检测。此外,根据无监督模式下K-means算法的原理,对网络流量异常检测算法进行了优化,采用Z-score算法过滤边缘信息,选择熵信息K-means模型作为第一级网络流量异常检测的模型,以第一级检测模型的数据输出作为第二级模型的输入,采用随机森林算法作为第二级分类模型。其次本论文针对以上算法进行了对比测试。首先以KDD99为实验数据集,基于熵信息判断K-means最优模型,并通过交叉检验证明了在不同的K值下模型预测准确度和熵信息成反比,K值为60时K-means模型达到最优。同时还对随机森林算法和决策树算法在不同参数组合下的预测模型进行了异常数据分类测试对比,测试结果表明,随机森林模型可以做到98%以上的异常结果分类预测,采用二级异常检测模型与传统模型相比较,可获得较高的异常数据检测精度。
其他文献
<正>十月,让整个帝都及国内各地艺术圈小伙伴倾巢而出的艺术长沙热闹的开幕,从参展艺术家的人数上看,并不算多,但几乎个个都是艺术圈的重量级"老炮",其中,一个艺术家的作品观
美国太平洋大学终身教授董庆文博士、中国传媒大学艺术研究院副院长张金尧博士以及年轻学者石美、苏米尔等正在编写《中美影视艺术关键词》一书。该书认为"中美文化交流应当
作为一项重要的制度设计,全国职业院校信息化教学大赛力求开创职业教育教学改革的全新局面。调研数据表明,大赛确实较好地发挥了激励作用,在自身影响力不断提升的同时,全面促
<正>天生的音乐家在美国马萨诸塞州举办的一个夏令营中,聚集着这样一群特殊的人,他们如孩子般天真,平均智商只有60,但他们全部都是音乐天才。这些人的听觉大都异常灵敏,可以
期刊
<正>"圆"是特殊的平面曲线图形,而学习圆的特殊性质也是初中数学中的一项重要的任务,虽然《课程标准》中降低了原《教学大纲》中圆的定理教学和演绎证明的要求,但圆为三角形
配备视觉设备的工业机器人在食品包装、医药生产、无损检测、自动生产流水线等场合扮演了重要的角色。随着“中国制造2025”战略的提出,机器视觉和工业机器人的联合工作必然
在总结了大量材料焊接性分析知识的基础上,综合运用数据库技术和焊接专业知识,利用ASP网络编程技术和VBScript脚本语言,设计了材料的焊接性分析系统。该系统可完成材料化学成
以常州民营企业为例,通过问卷的方式,对民营企业内部控制的实施现状进行了调查。结果发现,内部控制在民营企业并未落地生根,民营企业在对内部控制的理解程度、企业环境建设、
随着社会科技的不断发展,人们的生活环境发生了翻天覆地的变化,所以近些年建筑行业的发展也变得越来越快。从一方面上来讲,建筑行业的快速发展推动社会的进步,让人们的居住条
介绍了IPv6用户接入的基本技术,提出了IPv6家庭网关部署的建议,描述了IPv6家庭网关用户接入场景部署的主要流程。