论文部分内容阅读
随着互联网的日益普及,Web网页技术得到了快速的发展。互联网中充斥的形式各异的恶意网页严重威胁着网页用户的安全。尤其是钓鱼网页、垃圾网页和带恶意程序的网页等都有各自的威胁特点。对网页用户来说,判断网页的安全性通常比较困难,现有的恶意网页检测及类型识别的研究工作亟需完善。网页的特征提取方法是恶意网页检测的关键步骤,本文针对恶意网页的特征提取方法做了深入的研究和分析,提出了一种新的特征提取方法,并应用此方法设计实现了一个恶意网页的检测系统。主要的研究工作如下:本文研究并分析了常用的网页特征提取方法,针对现有方法的不足并结合恶意网页检测的实际特点,提出了一种基于网页源代码和网址属性的恶意网页特征提取方法。该特征提取方法利用静态分析的方式对网页的源代码提取出页面代码信息特征和脚本信息特征,同时通过分析网页网址来提取文本词汇特征和相关的主机属性特征,随后将网页的特征信息表示成数值化的特征向量。为了证明了本文提取特征方法的有效性,在特定的数据集上,与运用已有方法提取特征的文献做了对比实验,从检测准确度等方面做了评估。实验还验证了本文特征的融合有效性。在提出的特征提取方法的基础上,本文设计并实现了一个恶意网页检测系统。该系统分为四个模块,其中网页搜集模块采集得到四类网页数据集;特征提取模块采用本文提出的基于网页源代码和网址属性的恶意网页特征提取方法对网页数据集中的网页进行特征提取,构建出网页特征库;数据存储模块将网页的相关数据保存于数据库中;检测分类模块是利用K近邻和支持向量机进行检测,并且考虑到大规模网页分类的问题,运用了KD-tree来优化K近邻算法以减少时间开销。实验分析了系统的检测性能和时间开销。