论文部分内容阅读
钓鱼网站是网络攻击的主要形式之一,为了维护信息安全,各类钓鱼检测技术在不断改进,但目前针对钓鱼网站攻击目标的识别缺少专门的研究和解决方法,而确定攻击目标对有针对性地提醒用户和被攻击网站,使他们提前做出防范措施,及指导未来钓鱼网站的研究方向有重要意义。研究人员主要从URL、网页特征这两个角度进行钓鱼网站识别,而对其攻击目标进行识别只是作为钓鱼检测的一个附加功能,也是从URL和网页特征中进行初步的识别,准确率较低,而且特征提取的复杂度较高。同时,攻击者也在不断更新攻击方式来逃避各种钓鱼网站识别技术。为了应对钓鱼者的检测逃避策略,同时准确识别出其意图攻击的目标,本文对此展开钓鱼目标识别的研究,本文主要内容如下:(1)提出基于URL相似性的目标识别算法。通过对URL中域名字符串的相似性分析,改进编辑距离的计算方式来识别利用填充字符实现逃避检测的钓鱼网站,另外通过确定候选目标减少编辑距离的计算次数,提高算法的整体效率。(2)提出基于URL语言特征的钓鱼网站识别算法。对于无法从URL上直接识别出目标的网站,通过分析URL蕴含的语言特征选择可以有效分类的域名特征,利用域名特征建立决策树分类模型实现对钓鱼网站的识别,另外对决策树进行改进,减少并简化信息增益率的计算,以提高建立决策树的效率。(3)提出基于搜索引擎的目标识别算法。对于识别出的钓鱼网站,分析HTML中各个标签的特点选取有效的检索关键词,通过在三种搜索引擎中检索和对关键词去编码化改进检索过程,以消除单搜索引擎的误判并识别出钓鱼者利用unicode编码逃避检测的策略,实现对钓鱼网站识别结果的补充和修正。(4)在MapReduce上分别设计目标识别算法和钓鱼网站识别算法的并行化方案,以提高确定候选目标、计算编辑距离、建立决策树以及利用搜索引擎识别攻击目标的效率。