基于多特征的恶意网页检测研究

被引量 : 0次 | 上传用户:luke_lemon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的日益普及,Web网页技术得到了快速的发展。互联网中充斥的形式各异的恶意网页严重威胁着网页用户的安全。尤其是钓鱼网页、垃圾网页和带恶意程序的网页等都有各自的威胁特点。对网页用户来说,判断网页的安全性通常比较困难,现有的恶意网页检测及类型识别的研究工作亟需完善。网页的特征提取方法是恶意网页检测的关键步骤,本文针对恶意网页的特征提取方法做了深入的研究和分析,提出了一种新的特征提取方法,并应用此方法设计实现了一个恶意网页的检测系统。主要的研究工作如下:本文研究并分析了常用的网页特征提取方法,针对现有方法的不足并结合恶意网页检测的实际特点,提出了一种基于网页源代码和网址属性的恶意网页特征提取方法。该特征提取方法利用静态分析的方式对网页的源代码提取出页面代码信息特征和脚本信息特征,同时通过分析网页网址来提取文本词汇特征和相关的主机属性特征,随后将网页的特征信息表示成数值化的特征向量。为了证明了本文提取特征方法的有效性,在特定的数据集上,与运用已有方法提取特征的文献做了对比实验,从检测准确度等方面做了评估。实验还验证了本文特征的融合有效性。在提出的特征提取方法的基础上,本文设计并实现了一个恶意网页检测系统。该系统分为四个模块,其中网页搜集模块采集得到四类网页数据集;特征提取模块采用本文提出的基于网页源代码和网址属性的恶意网页特征提取方法对网页数据集中的网页进行特征提取,构建出网页特征库;数据存储模块将网页的相关数据保存于数据库中;检测分类模块是利用K近邻和支持向量机进行检测,并且考虑到大规模网页分类的问题,运用了KD-tree来优化K近邻算法以减少时间开销。实验分析了系统的检测性能和时间开销。
其他文献
随着经济、科技和社会的发展,信息技术也在飞速发展,人们对于信息和数据的研究和关注也在不断增加。时间序列从广义上讲是随着时间、空间变化的序列数据,主要采用相同时间或相同
目的综述京尼平苷及其衍生物的药效学研究进展,为京尼平苷及其衍生物的开发利用提供参考。方法总结近年来有代表性的文献,对京尼平苷及其衍生物的药效学进展加以归纳。结果京
本文通过文献资料法、个案分析法和逻辑分析法,对丽江足球小镇建设的优势资源,对社会与经济发展的意义进行分析。丽江是世界文化遗产之地,旅游胜地,也是古丝绸之路、茶马古道
随着经济化与信息化的不断发展,电子政务实验室在高校中的建设变得越来越重要。它在一定程度上给我国高校的政务人才提出了新的要求,同时也为高校的发展创新了教学模式。电子政
回热器是重要的能量回收设备,广泛应用于发电系统、车辆、航空和舰船等各个领域,随着能源问题的日益突出和服役环境的极端化,开发微小化、轻量化、高效化的高温回热器迫在眉
催化裂化(FCC, fluid catalytic cracking)油浆是一种应用价值很高的化学原料,其高比例的芳香烃含量使其具有在沥青路面工程中大范围使用的潜力,然而,如何将其更加合理地应用
引入相似关联度来代替绝对关联度,与相对关联度进行耦合,构建改进灰色综合关联度,试图兼顾各序列曲线几何形状的相似程度、各序列相对于始点变化速率的接近程度,并扩大了传统
目的 评价国产马来酸伊索拉定片 (MIT)的有效性和安全性。方法 采用随机双盲对照试验 ,选用日本产马来酸伊索拉定片 (商品名为盖斯隆 )为对照药 ,共治疗活动性胃溃疡 12 0
首先简述了连锁超市物流配送的基本特征,接着指出现阶段连锁超市常见的三种物流配送模式,包括超市自营配送模式、供应商配送模式与第三方物流配送模式。然后分析了连锁超市物