论文部分内容阅读
摘要:本文将数据挖掘中的聚类挖掘和关联规则挖掘应用于建立入侵检测系统规则库中,提出了一种不同于传统入侵检测规则库建立的动态更新的方法。
关键词:数据挖掘;入侵检测系统;规则库;聚类;关联规则
中图分类号:TP311.52 文献标识码:A文章编号:1007-9599 (2011) 15-0000-01
Data Mining Application in the Intrusion Detection Rules Base Establish
Hu Honglin
(Chongqing NanFang Translators College of SISU,Chongqing401120,China)
Abstract:This data mining in the gathering of the kind of mining and associated rules apply to dig up the rules of the detection system library,a traditional test rule is different from the library of the dynamic updates.
Keywords:Data Mining;Intrusion Detection;Associativerules;Cluster;
Rule base
入侵检测是对入侵行为的检测,是防火墙之后的第二道安全闸门,是防火墙的合理补充,它通过收集和分析网络行为、安全日志、审计数据、其它网络上可以获得的信息以及计算机系统中若干关键点的信息,检查网络或系统中是否存在违反安全策略的行为和迹象。根据现有的入侵检测技术入侵规则库的建立,本文设计了一种采用数据挖掘中关联规则挖掘和聚类分析方法自动建立入侵规则库的方法。关联规则算法则可利用这些标记为异常的数据来进行分析,提取出入侵行为规则,存入规则库,实现入侵规则库的更新。
本系统数据挖掘流程为:从数据库中提取未标记数据,利用聚类算法进行聚类,把数据标记为正常或异常数据;从异常数据库中挖掘出的规则集被视为入侵规则库集,代表入侵模式的规则,存入入侵规则库。下面详细叙述本系统数据挖掘模块中使用的聚类挖掘设计思想和关联规则挖掘思想。
一、聚类挖掘的设计思想
本文采用的算法是一个典型的逐点修改迭代的动态聚类算法,其要点事以误差平方和为准则函数。算法的基本思想是:首先从 个数据对象中随机选取 个对象,每个对象初始地代表了一个类的平均值,即为初始聚类中心;然后将剩余的每个对象根据与各个聚类中心的距离分配到最近的聚类;再重新计算每个聚类中心(即该聚类所有对象的平均值),不断重复,直到聚类中心值不再变化为止。
运用聚类挖掘后产生了若干个聚类,每个聚类中包含部分的连接记录。由于没有使用带标记的训练数据,因此无法知道哪些连接记录是正常的,哪些是异常的,也无从对聚类做出相应的标记。解决这一问题的方法有很多,本文做出一种假设,正常连接记录的数据远远大于异常连接记录,的数据,在实际的网络环境中,这种假设是可以成立的,这样就可以采用这样的方法标记各个聚类:如果聚类中的连接记录的个数大于某一阈值,就将它标记为正常的聚类,否则标记为异常聚类。
二、聚类挖掘模型设计
该模型主要由数据库、基于聚类的数据挖掘模块组成。其挖掘过程为:首先将未标记的网络数据装入数据库中,然后在聚类挖掘算法的指导下,对数据库中未标记数据进行挖掘,标记处正常数据和异常数据,并存入正常数据库和异常数据库,构成训练数据集。
三、关联挖掘的设计思想
关联挖掘的主要思想是基于分治策略,用 来递归增长频繁集。在第一次扫描数据库以后,将产生频繁集的数据压缩到一棵频繁模式树中,又称之为 ,同时保留其中的关联信息;然后通过分析 路徑的条件模式库来得到所有的频繁集。其中对于每个支持度大于给定阈值的项,生成它的条件模式库,然后在它的条件模式基础上生成它的条件 。对每个新生成的条件 ,重复这个步骤,直到结果 为空,或只含有唯一的一条路径(此路径的每条子路径对应的项集都是频繁集)。
是一种具有如下特点的树:
(一)节点链接。任何包含 的可能频繁集,都可以从 头表中的 沿着 的节点链接得到。
(二)前缀路径。要计算路径 中包含节点 的频繁集,只要考察到达 的路径前缀即可,且要支持度等于节点 的支持度。关联规则挖掘过程如图3.6所示。
(三)运用关联规则挖掘的结果是产生了规则集,因为是对异常数据的挖掘,所以这些规则集均被视为入侵规则集,最后被存入入侵规则库。
四、关联规则挖掘模型设计
该模型主要有数据库、基于关联规则的数据挖掘模块组成。其挖掘过程为:从数据库中取出标为异常的数据,在关联规则挖掘算法的指导下进行关联挖掘,提取出入侵规则。在本系统中,关联规则挖掘模型的主要任务就是在异常数据库中,根据制定的参数发现所有的频繁集,由挖掘出的频繁集生成各种攻击方式的入侵规则集。入侵检测技术研究的关键在于如何获得描述入侵行为的规则库。本文采用数据挖掘方法挖掘入侵规则的模式。
入侵规则库里的规则有两个来源:(1)对已知入侵进行“硬编码”;(2)在系统用于入侵检测后不断补充。
入侵规则库中规则的第一个来源是传统的建库方法,即利用安全专家的经验知识。对于有些攻击过程已被清除分析的入侵,可以由专家对其总结并采取“硬编码”的方式写入入侵规则库中。该方法的好处是可以预建一个初级入侵规则库并运用到急需IDS的环境中,然后再收集数据完善规则库。
在建立了入侵规则库并用于误用检测后,网络上还将会出现新型的攻击方法,因而入侵模式库应当不断被完善,以随时捕捉新的攻击,在本文中,系统利用聚类算法对实时采集得到的网络数据不断进行划分,形成异常数据库,再通过序列算法对形成的异常数据库不断进行挖掘,从中提炼出入侵规则,合并入侵规则库中。整个过程是一个不断采集,不断划分,不断发掘的过程。由于整个规程均为自动进行,因此能够根据当前的网络环境自动更新入侵规则,可以大大改善入侵规则库的健壮性、增强其识别入侵变体的能力并缩小规则库的维护成本。
本文从基于数据挖掘的入侵检测系统的技术角度出发,论述了系统的总体结构,给出了系统的流程图,介绍了系统各个模块的关系,并给出了具体的数据挖掘模块结构框架,聚类和序列挖掘模式及入侵规则库的设计思想。
关键词:数据挖掘;入侵检测系统;规则库;聚类;关联规则
中图分类号:TP311.52 文献标识码:A文章编号:1007-9599 (2011) 15-0000-01
Data Mining Application in the Intrusion Detection Rules Base Establish
Hu Honglin
(Chongqing NanFang Translators College of SISU,Chongqing401120,China)
Abstract:This data mining in the gathering of the kind of mining and associated rules apply to dig up the rules of the detection system library,a traditional test rule is different from the library of the dynamic updates.
Keywords:Data Mining;Intrusion Detection;Associativerules;Cluster;
Rule base
入侵检测是对入侵行为的检测,是防火墙之后的第二道安全闸门,是防火墙的合理补充,它通过收集和分析网络行为、安全日志、审计数据、其它网络上可以获得的信息以及计算机系统中若干关键点的信息,检查网络或系统中是否存在违反安全策略的行为和迹象。根据现有的入侵检测技术入侵规则库的建立,本文设计了一种采用数据挖掘中关联规则挖掘和聚类分析方法自动建立入侵规则库的方法。关联规则算法则可利用这些标记为异常的数据来进行分析,提取出入侵行为规则,存入规则库,实现入侵规则库的更新。
本系统数据挖掘流程为:从数据库中提取未标记数据,利用聚类算法进行聚类,把数据标记为正常或异常数据;从异常数据库中挖掘出的规则集被视为入侵规则库集,代表入侵模式的规则,存入入侵规则库。下面详细叙述本系统数据挖掘模块中使用的聚类挖掘设计思想和关联规则挖掘思想。
一、聚类挖掘的设计思想
本文采用的算法是一个典型的逐点修改迭代的动态聚类算法,其要点事以误差平方和为准则函数。算法的基本思想是:首先从 个数据对象中随机选取 个对象,每个对象初始地代表了一个类的平均值,即为初始聚类中心;然后将剩余的每个对象根据与各个聚类中心的距离分配到最近的聚类;再重新计算每个聚类中心(即该聚类所有对象的平均值),不断重复,直到聚类中心值不再变化为止。
运用聚类挖掘后产生了若干个聚类,每个聚类中包含部分的连接记录。由于没有使用带标记的训练数据,因此无法知道哪些连接记录是正常的,哪些是异常的,也无从对聚类做出相应的标记。解决这一问题的方法有很多,本文做出一种假设,正常连接记录的数据远远大于异常连接记录,的数据,在实际的网络环境中,这种假设是可以成立的,这样就可以采用这样的方法标记各个聚类:如果聚类中的连接记录的个数大于某一阈值,就将它标记为正常的聚类,否则标记为异常聚类。
二、聚类挖掘模型设计
该模型主要由数据库、基于聚类的数据挖掘模块组成。其挖掘过程为:首先将未标记的网络数据装入数据库中,然后在聚类挖掘算法的指导下,对数据库中未标记数据进行挖掘,标记处正常数据和异常数据,并存入正常数据库和异常数据库,构成训练数据集。
三、关联挖掘的设计思想
关联挖掘的主要思想是基于分治策略,用 来递归增长频繁集。在第一次扫描数据库以后,将产生频繁集的数据压缩到一棵频繁模式树中,又称之为 ,同时保留其中的关联信息;然后通过分析 路徑的条件模式库来得到所有的频繁集。其中对于每个支持度大于给定阈值的项,生成它的条件模式库,然后在它的条件模式基础上生成它的条件 。对每个新生成的条件 ,重复这个步骤,直到结果 为空,或只含有唯一的一条路径(此路径的每条子路径对应的项集都是频繁集)。
是一种具有如下特点的树:
(一)节点链接。任何包含 的可能频繁集,都可以从 头表中的 沿着 的节点链接得到。
(二)前缀路径。要计算路径 中包含节点 的频繁集,只要考察到达 的路径前缀即可,且要支持度等于节点 的支持度。关联规则挖掘过程如图3.6所示。
(三)运用关联规则挖掘的结果是产生了规则集,因为是对异常数据的挖掘,所以这些规则集均被视为入侵规则集,最后被存入入侵规则库。
四、关联规则挖掘模型设计
该模型主要有数据库、基于关联规则的数据挖掘模块组成。其挖掘过程为:从数据库中取出标为异常的数据,在关联规则挖掘算法的指导下进行关联挖掘,提取出入侵规则。在本系统中,关联规则挖掘模型的主要任务就是在异常数据库中,根据制定的参数发现所有的频繁集,由挖掘出的频繁集生成各种攻击方式的入侵规则集。入侵检测技术研究的关键在于如何获得描述入侵行为的规则库。本文采用数据挖掘方法挖掘入侵规则的模式。
入侵规则库里的规则有两个来源:(1)对已知入侵进行“硬编码”;(2)在系统用于入侵检测后不断补充。
入侵规则库中规则的第一个来源是传统的建库方法,即利用安全专家的经验知识。对于有些攻击过程已被清除分析的入侵,可以由专家对其总结并采取“硬编码”的方式写入入侵规则库中。该方法的好处是可以预建一个初级入侵规则库并运用到急需IDS的环境中,然后再收集数据完善规则库。
在建立了入侵规则库并用于误用检测后,网络上还将会出现新型的攻击方法,因而入侵模式库应当不断被完善,以随时捕捉新的攻击,在本文中,系统利用聚类算法对实时采集得到的网络数据不断进行划分,形成异常数据库,再通过序列算法对形成的异常数据库不断进行挖掘,从中提炼出入侵规则,合并入侵规则库中。整个过程是一个不断采集,不断划分,不断发掘的过程。由于整个规程均为自动进行,因此能够根据当前的网络环境自动更新入侵规则,可以大大改善入侵规则库的健壮性、增强其识别入侵变体的能力并缩小规则库的维护成本。
本文从基于数据挖掘的入侵检测系统的技术角度出发,论述了系统的总体结构,给出了系统的流程图,介绍了系统各个模块的关系,并给出了具体的数据挖掘模块结构框架,聚类和序列挖掘模式及入侵规则库的设计思想。