基于数据挖掘和机器学习方法的网络异常检测技术研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:txiu4hbky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展以及网络应用服务越来越呈现出的多样化和多元化等特点,网络协议、网络基础设施以及网络服务存在的相关缺陷和问题为黑客所利用,网络攻击正趋日益增长之势,网络威胁种类也日渐增加,严重地危害了网络安全和数据安全。网络安全问题成为威胁网络资源、网络基础设施和网络应用服务的最大问题和人们的关注焦点。   网络异常检测技术是保证网络安全的核心技术。虽然人们对其进行了多年的研究,然而依然存在着误报率过高和检测开销大的问题,因而难以满足应用需求。基于这个背景,本文在全面研究和分析传统网络异常检测技术的基础上,深入研究了基于数据挖掘和机器学习方法的网络异常检测技术,并从网络异常检测算法研究、与网络异常检测密切相关的训练集样本选取以及特征空间处理等多个层面,进行系统化、整体化的方法性研究,从而提出了一套高效的具有较高检测性能和检测速度的网络异常检测方法。本文的主要贡献和创新表现在以下五个方面:   ●研究、分析并综述了传统的网络异常检测技术。我们首先对网络异常检测技术的评价指标进行了介绍,并将当前的研究成果分为基于统计的检测方法、基于机器学习的检测方法、基于数据挖掘的检测方法、基于聚类的检测方法以及近年来最新出现的面向Web攻击的检测方法等几大类进行了详细地介绍和分析,包括他们的代表技术、主要优缺点以及应用现状等。其次,在此基础上,笔者对这几类异常检测技术从计算开销、检测性能、检测的特征空间维度、通用性能及适合的处理方式五个层面进行了详细的比较。最后,笔者根据当前的研究现状,展望了网络异常检测技术的未来主要研究方向。   ●提出并实现了一种基于ETCM-KNN(Enhanced Transductive Confidence Machines forK-Nearest Neighbors)数据挖掘算法的网络异常检测新方法。针对传统的检测算法仍然存在较高误报率的不足,笔者首先将模式识别和欺诈检测领域表现卓越的TCM-KNN算法引入入侵检测领域,然后针对网络异常检测的实际应用需求对其进行改进,实现了一种基于ETCM-KNN算法的网络异常检测新方法。与传统方法仅仅依赖少量样本建立的模型进行异常判定不同,该方法采用奇异值及P值两个核心概念,通过阈值判定的方式,深入挖掘并使用正常训练数据集的整体优势,高效地使用直推式方法对网络异常进行判定,从而在很大程度上避免了传统方法在正常/异常这个二类判定问题上的不准确性。通过大量采用国际上权威的KDD Cup1999入侵检测测试数据集的测试表明,相对于该领域经典的研究成果来说,其不但具有较高的检测率(99%左右),而且还保证了较低的误报率(2%左右)。   ●提出并研究了使用样本选择方法对网络异常检测技术的性能优化策略。在网络异常检测技术的实际应用过程中,不可避免地需要依赖仅含“正常数据”的训练数据对正常的网络流量和网络行为进行训练和建模。然而,如果训练数据的冗余导致其规模过大,对于以数据挖掘和机器学习为基础的异常检测算法来说,必然导致较高的计算开销和内存消耗,对于本文所提出的基于距离计算的ETCM-KNN算法尤其如此。因此,我们在对传统样本选择方法进行研究的基础上,提出并开发了一种扩展的FCM聚类算法对训练集进行选取以获取高质量的代表性训练数据,从而降低网络异常检测算法的计算开销。采用ETCM-KNN算法的实验表明,在选取相应于原训练集中10%左右的高质量数据进行训练的情况下,仍然能够保证其检测性能没有明显下降,而计算开销要降低70%左右。   ●提出并研究了使用特征选择及特征加权方法对网络异常检测技术的性能优化策略。通过研究发现,提取和处理的特征数目过多是导致检测速度下降的主要原因之一。基于这个背景,我们将特征选择方法引入入侵检测领域,首先通过大量的对比实验论证了特征选择方法对于提取有效特征、限制特征维数和提高检测速度方面所起到的有效的和积极的作用。然后,我们将其应用于ETCM-KNN异常检测方法当中,实验表明:特征选择方法在保证高检测率、低误报率的前提下,能够极大地降低由于特征过多而带来的过大计算开销(节约开销80%左右)。最后,本文还通过采用基于SVM(支持向量机)的特征加权方法,对使用特征选择技术提取出来的特征进行进一步的加权,从而合理地赋予每个特征对于检测性能的贡献价值。通过使用ETCM-KNN异常检测方法的实验表明,该特征加权方法能够进一步提高算法的检测率(从99.44%提升到99.78%)和降低误报率(从1.74%降低到0.38%)。   ●通过具体实例探讨了网络异常检测技术的应用前景。基于本文前面的研究成果,将这套整体化、系统化的网络异常检测方法应用于目前非常流行和备受关注的Web服务器的异常检测和统一威胁管理(UTM)系统中的异常检测引擎。从将本文所述方法应用于这两个实际问题出发,笔者探讨了网络异常检测技术的应用前景以及现实要求,也为网络异常检测技术的具体应用明确了方向和目标。
其他文献
随着Ad-hoc网络的快速发展以及研究的深入,Adhoc网络中的数据管理与共享已经成为当前研究的一个热点。为了能够从巨大的Adhoc网络中获取我们感兴趣的信息,我们要从Adhoc网络中
物理验证是芯片流片前的最后一道流程,用于确保芯片正常、正确工作,在集成电路设计流程中占有重要地位。随着集成电路工艺水平和设计技术的发展,集成电路的规模越来越大,复杂度越
在经典密码学中,无论是对称密码系统或非对称密码系统,其系统的安全性都要依赖于密钥的保密性,有的加密体制还需要依赖于问题的计算复杂度,这使得一些现在看来足够安全的加密方法
随着互联网应用的发展,互联网寻址技术领域先后出现和经历了域名服务、关键词服务、Enum、Handle等。这些寻址技术都是基于Clinet/Server类型的,在管理和解析服务上都是集中式
随着Internet发展的深化以及Web2.0时代的到来,越来越多的企业和组织将它们的各种业务系统转移到Web上来。基于Web的企业级应用的分布式、开放性的体系结构一方面使得系统的使
二维矩形装箱问题(2-DimensionalRectangularPackingProblem,2DR-PP)属于典型的组合优化问题,在工业领域有着广泛的应用,如新闻组版、布料切割、金属下料等。理论上,该问题属于NP
P2P存储系统具有可扩展性好,容错性高等优势,是近年来学术界的研究热点。但是由于P2P存储系统的复杂性高,搭建起来比较困难,使得系统并没有随着研究发展而流行起来。尤其是在广域
三维人体建模在服装定制、虚拟现实、电子游戏、影视特效等领域中具有重要的应用价值。在基于立体视觉的三维人体模型重建过程中,由于相机视角与遮挡等原因,获取到的点云数据往
指代是自然语言中常见的语言现象,大量出现在日常对话和书面记录中。由于互联网技术的不断发展,Web上出现了数以万记的网页,这些网页的内容大多是以自然语言的形式描述的,其中包
随着集成电路制造工艺的进步和半导体技术的发展,传统的二维芯片的设计越来越复杂,通信成本不断提高。三维集成技术缩短了物理连线的长度,降低了系统的通信时延和功耗,成为芯片架