论文部分内容阅读
由于网络浏览的便捷性和广泛性,网站中被植入木马病毒已经成为互联网的主要安全威胁之一。它不仅能攻破大量主机,而且能导致大规模的僵尸网络,成为黑客地下经济链的重要一环,因此受到社会的广泛关注。目前,识别网页木马最可靠的办法仍然是采用高交互式客户端蜜罐的动态行为分析方法,但是该方法需要较高性能的硬件并耗费较多分析时间,限制了它的大规模部署和检测效率。为了解决这一问题,采用在客户端蜜罐的前端部署一个快速遴选系统,通过它把大多数的正常网页和已确定的恶意网页过滤掉,而仅把少数疑似恶意网页放进客户端蜜罐加以进一步确认,可节省大量的分析时间和耗费较少量的蜜罐资源。基于这种思想,本文对客户端蜜罐前端的快速遴选系统予以了研究。 本文主要通过建立基于静态特征的分类模型,实现网页木马的快速识别。首先从恶意网页和正常网页样本中提取网页的静态特征,包括Html和JavaScript两个方面,然后对这些特征数据进行归纳学习,得到分类器模型,用以在客户端蜜罐前进行网页的恶意性判别。由于网页木马特征可能有新的变化,需要及时把新发现的恶意网页作为训练样本,所以采用增量学习技术是改进性能的有效方法。与传统学习技术相比,增量学习可充分利用历史学习的成果,节省新样本到来后的训练时间。有鉴于此,本文对面向网页木马静态特征的决策树和支持向量机(SVM)及其增量算法予以了研究,具体研究内容包括:⑴提取了网页中Html和JavaScript两方面分别14和21个特征,对特征数据进行了基于重合率的统计分析,采用皮尔逊积矩相关系数对特征间关系予以了分析。⑵构造了基于Gini指数、熵、二分指数测度的三种决策树算法,分别对网页木马特征数据进行了比较分析实验。对增量决策树算法的目标,基本过程和代价分析做了简单介绍,使用增量决策树算法对样本数据做了增量学习的实验。⑶针对现有SVM只侧重分类界面而忽略分类集内部点构成的现状,实现并改进了基于凸壳SVM算法,并通过与线性和非线性SVM的实验对比,表明所采用的新算法具有更少的支撑向量集、以及对增量学习的支持,同时也表现了更好的网页木马判定分类结果。基于以上研究,本文将上述决策树和支持向量机模型的分类结果进行综合,提出了一种简单的网页木马快速遴选器系统,该系统能够综合两个判决结果,将疑似恶意页面从好的和坏的样本区分开,并可将蜜罐分析后的结果用于上述两模型的增量学习。连续多次的实验数据表明,本快速遴选系统有较快的判别速度和更为准确的判别结果。