论文部分内容阅读
根据Hawkins对于异常的定义:“异常是远离其他观测数据,并且产生机制与正常数据不同的样本数据”,可以得出异常检测是对数据中不同于正常行为的异常数据模式的检测和发现。在网络环境、复杂机器系统、气象信息系统等系统中,数据模式往往可以归纳成两种形式,一种是正常,一种是异常。在这些系统中,异常模式往往包含了重要的信息,及早发现异常模式可以规避已知或者未知的风险,同时提高工作效率。目前异常检测技术已经大量应用到各个领域,例如网络入侵检测,信用卡欺诈检测、复杂系统中的故障检测与修复和气象异常检测等。识别,理解和预测数据中的异常已经成为现代数据挖掘的关键支柱之一。在大数据环境下,人们比以往更加关注能够快速从全体数据中获得有价值信息的方法。因此无监督异常检测算法更加需要关注异常的发现效率和在各类型数据情况下算法的可适应性问题。本课题旨在通过对以往无监督异常检测算法优缺点的研究与分析,提出一种基于无监督决策树的异常检测算法。本文的主要研究内容包括以下三个部分:1、国内外异常检测算法比较研究。此部分是本课题研究的逻辑起点。通过该部分对异常检测算法的背景研究与分析可以找出现有算法的优点与不足,从而总结归纳出新的算法。2、无监督异常检测算法的提出与实验。此部分基于第一部分的调研,提出一种结合统计学知识和决策树构建方法的新的无监督决策树算法。该方法利用数据在特征上的分布信息找出决策树分支节点的最优分割点。实验结果表明,该方法可以获得比现有通用方法更好的检测效果。同时该方法相较于现有方法,对数据具有更强的适应性。3、决策树加速算法的提出与实验。为了使得决策树算法在大样本下依然有较高的执行效率,提出一种基于梯度的决策树找最优分割点的方法。该方法利用可分性的梯度信息来指导跳过不重要分割点处的可分性计算,减少了大量的计算量。实验表明该方法在减少大量计算量的同时,并不会降低算法精度。