论文部分内容阅读
针对传统包过滤防火墙解决不了的基于内容的网络攻击,提出了一个基于Windows系统下的文本过滤防火墙的设计,包括三部分:数据采集模块;文本内容分析模块;过滤控制模块。其中文本内容分析模块是核心,首先采用CLARA聚类方法从海量的网页中选取对分类最具有代表性页的网页作为训练集,然后再利用KNN文本分类算法实现分类过程。实验结果证明:这种方法应用在防火墙上比单纯地用KNN算法在准确率与召回率上均有提高,在性能方面可以接受。