基于静态特征的网页木马遴选器设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:TDM
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于网络浏览的便捷性和广泛性,网站中被植入木马病毒已经成为互联网的主要安全威胁之一。它不仅能攻破大量主机,而且能导致大规模的僵尸网络,成为黑客地下经济链的重要一环,因此受到社会的广泛关注。目前,识别网页木马最可靠的办法仍然是采用高交互式客户端蜜罐的动态行为分析方法,但是该方法需要较高性能的硬件并耗费较多分析时间,限制了它的大规模部署和检测效率。为了解决这一问题,采用在客户端蜜罐的前端部署一个快速遴选系统,通过它把大多数的正常网页和已确定的恶意网页过滤掉,而仅把少数疑似恶意网页放进客户端蜜罐加以进一步确认,可节省大量的分析时间和耗费较少量的蜜罐资源。基于这种思想,本文对客户端蜜罐前端的快速遴选系统予以了研究。  本文主要通过建立基于静态特征的分类模型,实现网页木马的快速识别。首先从恶意网页和正常网页样本中提取网页的静态特征,包括Html和JavaScript两个方面,然后对这些特征数据进行归纳学习,得到分类器模型,用以在客户端蜜罐前进行网页的恶意性判别。由于网页木马特征可能有新的变化,需要及时把新发现的恶意网页作为训练样本,所以采用增量学习技术是改进性能的有效方法。与传统学习技术相比,增量学习可充分利用历史学习的成果,节省新样本到来后的训练时间。有鉴于此,本文对面向网页木马静态特征的决策树和支持向量机(SVM)及其增量算法予以了研究,具体研究内容包括:⑴提取了网页中Html和JavaScript两方面分别14和21个特征,对特征数据进行了基于重合率的统计分析,采用皮尔逊积矩相关系数对特征间关系予以了分析。⑵构造了基于Gini指数、熵、二分指数测度的三种决策树算法,分别对网页木马特征数据进行了比较分析实验。对增量决策树算法的目标,基本过程和代价分析做了简单介绍,使用增量决策树算法对样本数据做了增量学习的实验。⑶针对现有SVM只侧重分类界面而忽略分类集内部点构成的现状,实现并改进了基于凸壳SVM算法,并通过与线性和非线性SVM的实验对比,表明所采用的新算法具有更少的支撑向量集、以及对增量学习的支持,同时也表现了更好的网页木马判定分类结果。基于以上研究,本文将上述决策树和支持向量机模型的分类结果进行综合,提出了一种简单的网页木马快速遴选器系统,该系统能够综合两个判决结果,将疑似恶意页面从好的和坏的样本区分开,并可将蜜罐分析后的结果用于上述两模型的增量学习。连续多次的实验数据表明,本快速遴选系统有较快的判别速度和更为准确的判别结果。
其他文献
植物的生长开放在自然界中是一个美丽的现象。花朵的开放,叶片的舒展等经常是以一种错综复杂的方式表现出来的,包括叶片的弯曲,伸展和各种扭曲变形。叶片通常是薄片结构并且
字体设计技术的成熟与互联网的发展促进了字体的创新和传播。相应的字体识别技术在版面恢复、文档理解和字体版权保护等领域也越来越受到重视。传统的字体识别只关注少数几种
目前的服装工业现状依然是大规模生成几个固定尺寸(如S,M,L,XL和XXL)的衣服为主,顾客通过试穿从中选取一个最适合自己的尺寸。虚拟试穿将此过程搬到虚拟空间进行,通过三维人体和衣服
云计算作为一种分布式计算模式,是网格计算的商业性演化。在云计算的虚拟资源中,提高资源利用率和负载均衡度是永恒的话题。为了实现这一目标,本文设计并实现了云平台的负载
伴随信息社会的发展,网页制作成为许多学校和培训单位的必开课程,而其中静态网页制作更是必修技术。但对于如何进行相关教学内容的考核,却产生了较大问题,主要是目前学生提交
随着无线通信技术与便携计算设备的快速发展与普及,移动用户的数量不断飙升。在无线移动计算环境中,由于移动设备的频繁断接性,无线通信网络的非对称性以及无线网络带宽有限
随着近年来人们对智能监控系统的要求更加智能化和实时化,智能视频监控技术越来越受到研究人员的关注。多场景目标跟踪是机器视觉领域一个重要的研究课题,它是智能视频监控系统
近年来,三维模型作为新一代数字媒体,其在工程、医学及科研领域的应用越来越广泛。而随着三维模型建模技术,及计算机硬件和互联网的不断发展,三维模型的数量开始呈现出以几何
学位
人们的工作和娱乐都离不开计算机,也离不开各种类型的电子文档。网络信息爆炸使得每个人都接触到大量文档,如何有效的管理文档已经变成一个重要课题;而且个人拥有多种计算机设