网络流概念漂移检测及分类方法研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:zr_ran
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络流特征分布会随着网络环境的变化而动态变化,产生概念漂移问题,造成基于流特征的机器学习网络流分类模型准确率下降。依据固定周期更新分类模型不但耗时且浪费大量资源,因此及时准确地检测到概念漂移从而更新分类模型至关重要。当前主要通过分类准确率下降来检测概念漂移,然而统计分类准确率需要标记样本,花费许多时间和资源。检测到概念漂移时,若仅在检测到的漂移样本上重新训练分类模型会遗失之前的知识;若把所有时期的流量样本结合起来共同训练分类模型则会对模型的性能造成较大的影响。因此,如何有效地检测概念漂移并建立合理有效的网络流量分类模型具有重要的意义。针对以上问题,本文引入信息论和增量集成学习思想,提出了一种新的网络流概念漂移检测及分类方法,主要包括以下几点研究内容:(1)提出了基于JS散度的网络流概念漂移检测方法。该方法主动对网络流量中概念漂移进行检测,采用双层滑动窗口的方式跟踪概念漂移,根据流量特征分布的JS散度,记为JSD(Jensen-Shannon Divergence)来度量滑动窗口内数据分布的差异,从而对网络流中的漂移现象进行检测。该方法在检测漂移时无需使用样本的标签,实验结果表明,本文提出的基于JS散度的漂移检测方法可以准确地检测到网络流中的概念漂移,具有较低的误报率和漏报率。(2)提出了基于增量集成学习的网络流概念漂移分类方法。该方法引入集成学习的思想,首先训练若干个基分类器,依据各个基分类器的分类准确率赋予其对应权重,构建出加权集成流量分类模型,加权集成各个基分类器对待检测样本进行分类。使用本文提出的基于散度的漂移检测方法进行持续的漂移检测,当检测到概念漂移时,在漂移样本上重新训练新的分类器,然后根据分类器权值排序,保存性能较好的分类器并去除性能较差的分类器。该方法在概念漂移处采用权值比较的方式进行分类模型的更新,既保留了历史知识,又无需将所有时期的样本结合。实验结果表明,本文提出的基于增量集成学习的概念漂移分类方法拥有较好的分类性能。(3)基于以上方法设计并实现了能够展示网络流概念漂移检测及分类方法各项性能的原型系统。设计了原型系统的整体框架,从加权集成分类器构建、网络流概念漂移检测、分类器增量更新、用户界面展示等方面描述了原型系统的设计与实现。系统提供人性化的操作界面,使用者可以配置集成分类器各项参数、概念漂移检测各项参数等,同时还能将漂移检测结果、流量分类结果等存储成指定文件,用于后续分析,系统有着较强的实用性。
其他文献
本报告牵涉的翻译项目,是南京航空航天大学与美国约翰·霍普金斯医院达成合作意向前,前期考察阶段的部分医学材料。笔者根据美方所提出的译文质量要求完成项目中有关心脏监护仪的医学材料英译中任务,并选取材料译文的两轮审校意见进行分析,旨在对医学翻译译文质量作出探索,并进一步提升笔者自我审校的能力。本报告首先介绍了与美国约翰·霍普金斯医院合作的医学翻译项目具体情况。随后简单回顾了国内外关于医学翻译和翻译过程中
随着经济全球化的日益深入,国际性招标活动也日趋频繁。招标文件是整个招标活动的基础和重点内容,而招标文件的翻译质量在很大程度上决定着项目招标能否成功进行。因此,对招标文件的翻译过程进行总结,能够为本领域的翻译实践提供借鉴和参考。在上海唐能翻译公司实习期间,笔者负责某公司《招标书》的英汉翻译。该翻译任务在充分结合源文特点,并以平行文本为参照的基础上完成。本报告选取其中10000字译文,就翻译中出现的重
技术文本的翻译可以促进技术文档的标准化,为科技产品的开发和推广提供支持。该类型文本的翻译实用性强,对于翻译方法和技巧的探讨也有借鉴作用。本报告分析了笔者在翻译目的论指导下进行的IP摄像机片上系统规格书英译汉实践,旨在讨论笔者在翻译过程中遇到的问题,并探讨相应的解决方案,以期为今后同类文本的翻译提供一些参考。本报告共分为五章:第一章简要介绍了此次翻译实践的背景;第二章介绍了翻译目的论以及国内外对英语
Android是目前全球最受欢迎的移动操作系统。有越来越多的攻击者为了获取非法利益,将Android应用重新打包后发布到应用市场,给用户的隐私和安全带来了巨大威胁。因此在过去一段时间里有很多的学者都致力于研究Android重打包应用的检测。但过去大多数研究都集中在代码相似性检测上,这些算法无法检测混淆或加密后的应用。最近提出的基于UI特征的重打包检测算法具有抗加固性。一些基于动态获取UI特征的检测
随着无线通信技术的发展,无线网络的安全性越发受到人们的关注,尤其是对接入设备的身份认证是保障通信系统安全的重要组成部分,传统的基于加解密算法和安全协议算法的无线通信安全体系都是建立在数据链路层及其以上的层级,人们开始关注从更底层的角度——物理层考虑身份认证,因此通信设备的物理层特性其唯一性以及难以伪造的特点对于无线通信的认证安全具有着重大意义,值得去深入研究。本文的研究对象是GSM移动设备发送的G
随着云计算技术的不断发展与广泛应用,虚拟化技术也变得愈加重要。相比于传统虚拟化技术,基于容器的虚拟化技术更加轻量、灵活,对系统性能造成的影响也更小,因此受到越来越多用户和厂商的青睐。Docker技术是容器技术的一种,目前在容器市场中占据着主导地位,已成为容器技术的事实标准,因此Docker平台的安全防护具有重要的研究意义和实用价值。在Docker平台中,容器的低隔离性及镜像的构建和分发都可能引入新
现今社会生活对网络的依赖程度持续加深,在有意无意间,个人数据都在被服务平台收集并使用,这固然带来了极大的便利,但同时这些用户数据中包含着大量敏感的隐私信息,一旦泄露必将面临遭到非法使用的严重后果,因此保护数据安全和维护用户隐私是当今一项重要的研究议题。最初对数据安全的研究主要集中在匿名化公开内容、去除其中敏感信息上,而后随着对隐私理解的加深,一些研究者将目光转向了对用户检索公开信息过程中的检索目标
随着物联网技术的发展,在物联网系统中的视频流量将会呈指数增长趋势。视频中包含的人脸信息,也会随之大大增加。利用边缘设备识别视频中的人脸信息,逐渐成为科技界的发展趋势。由于边缘设备的资源有限,如何在资源受限的设备中完成人脸检测与识别,是一个具有重要理论意义与工程应用价值的研究方向。针对视频的相邻帧中存在冗余信息的问题,本文提出了一种基于d Hash算法与图像分块技术结合的双阈值关键帧提取算法。该算法
近年来,随着移动网络和传感器网络的大规模应用,无线通信有了飞速的发展,安全的无线通信也受到了广泛的关注。传统的保证通信机密性的方案,如利用密钥协商算法进行密钥分发,其安全性由计算复杂度决定,在实际无线网络环境中的应用往往会受到终端能力的限制。基于无线信道特征的密钥生成方案源于香农对完美保密通信理论的追求,利用了无线信道的不可预测性、随机性和地理空间位置唯一性,通过实时生成的对称随机密钥实现了无线通
效率是企业的生命,也是企业的竞争力之所在,为实现健康长远的发展,企业必须努力提高自身的经营效率。从现有研究来看,影响企业经营效率的因素是多方面的。但学者们主要从公司治理水平、公司财务特征以及技术创新等方面进行探讨,而对于企业所处的外部制度环境,特别是地区腐败这一重要外部因素在企业经营效率中的作用并没有给予足够的重视。改革开放以来,我国经济持续较快增长,但也存在着比较严重的腐败问题。腐败作为制度环境