论文部分内容阅读
在现在大数据飞速发展的时代,全球的网络空间安全问题也在不断地加剧,许多网络应用都在遭受着形式各异的安全威胁和网络攻击。传统的安全检测设备在新型攻击面前愈加力不从心,因此将人工智能和数据科学应用于网络安全领域成为目前热点话题之一。本文通过研究现有的URL检测技术,把机器学习算法应用于URL攻击行为识别,提出了基于机器学习的URL攻击行为多分类模型。该方法使用开源WAF规则库获取多分类训练集,提取了语法特征和领域特征,将特征向量输入到不同的分类算法,通过交叉验证得出分类效果较好的是随机森林分类模型。经实验对比分析,本文提出的分类模型要优于基于BoW和TF-IDF算法的分类模型。由于实际生产环境中很难获取大量标记样本以及检测模型需要不断地更新,本文还提出了基于Co-Forest改进的半监督算法,根据一定约束条件对高置信度样本和低置信度样本同时进行处理,改善了协同训练中仅处理高置信度样本的不足。与Co-Forest进行实验对比,本文提出的改进算法具有更好的分类效果。考虑到实际安全检测场景中数据规模庞大,对响应实时性要求较高,将本文提出的URL攻击行为分类模型和改进的半监督算法应用于实时检测系统,设计实现了流量采集模块、实时流计算模块和检测输出模块。实时检测系统充分利用了 Spark并行计算的优势,将数据预处理、特征提取和模型检测实现了完全并行化。为了验证系统的性能,最后对系统的检测效果进行了测试分析,检测准确率达98%以上。