无监督异常检测方法研究及其应用

来源 :电子科技大学 | 被引量 : 9次 | 上传用户:ningyuanhui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
根据Hawkins对于异常的定义:“异常是远离其他观测数据,并且产生机制与正常数据不同的样本数据”,可以得出异常检测是对数据中不同于正常行为的异常数据模式的检测和发现。在网络环境、复杂机器系统、气象信息系统等系统中,数据模式往往可以归纳成两种形式,一种是正常,一种是异常。在这些系统中,异常模式往往包含了重要的信息,及早发现异常模式可以规避已知或者未知的风险,同时提高工作效率。目前异常检测技术已经大量应用到各个领域,例如网络入侵检测,信用卡欺诈检测、复杂系统中的故障检测与修复和气象异常检测等。识别,理解和预测数据中的异常已经成为现代数据挖掘的关键支柱之一。在大数据环境下,人们比以往更加关注能够快速从全体数据中获得有价值信息的方法。因此无监督异常检测算法更加需要关注异常的发现效率和在各类型数据情况下算法的可适应性问题。本课题旨在通过对以往无监督异常检测算法优缺点的研究与分析,提出一种基于无监督决策树的异常检测算法。本文的主要研究内容包括以下三个部分:1、国内外异常检测算法比较研究。此部分是本课题研究的逻辑起点。通过该部分对异常检测算法的背景研究与分析可以找出现有算法的优点与不足,从而总结归纳出新的算法。2、无监督异常检测算法的提出与实验。此部分基于第一部分的调研,提出一种结合统计学知识和决策树构建方法的新的无监督决策树算法。该方法利用数据在特征上的分布信息找出决策树分支节点的最优分割点。实验结果表明,该方法可以获得比现有通用方法更好的检测效果。同时该方法相较于现有方法,对数据具有更强的适应性。3、决策树加速算法的提出与实验。为了使得决策树算法在大样本下依然有较高的执行效率,提出一种基于梯度的决策树找最优分割点的方法。该方法利用可分性的梯度信息来指导跳过不重要分割点处的可分性计算,减少了大量的计算量。实验表明该方法在减少大量计算量的同时,并不会降低算法精度。
其他文献
PSTN可视电话是指在一条模拟电话线上能够同时发送和接收音频及视频信息的终端设备。2002年底我国发布了通信行业标准YD/T1237-2002《PSTN可视电话进网技术要求及测试方法》,
如果追溯爱立信服务在中国的起源,那应该回到10年前。1993年11月23日,当爱立信中国科技服务公司前身在大连注册的时候,没有人会预测到今天电信服务领域欣欣向荣的气象。
随着中国城市信息化建设步伐的加快今后信息网络建设的热点和投资重点,也将成为中国电信网络运营商的市场竞争焦点。要实现宽带通信,整个通信链路上的每个环节都十分重要。目前
本文总结了笔者在承担会计职业硕士(MPAcc)项目《高级管理会计理论与实务》课程中的体验和启示,对未来更好地完成该课程的教学,提高MPAcc教育教学质量提出了自己的看法和建议。
在国家和地方经济社会发展过程中,地勘单位充分发挥着其先行性、基础性的独特作用。随着津京冀协同发展这一国家战略的提出,河北省地勘行业又遇到了新的经济机遇。地勘行业除
作为WLANF流规格之一,IEEE802.11在WLAN的传输媒介中影响整个网络架构的设计和网络构建,如何更好的利用它来构建良好的WLAN网络,SMC公司资深技术人员林义雄先生在本期解答了有关
计时有误,质检机关同具高额罚单,违法行政,电信企业提起行政诉讼;敦是敦非,两大部门各有说法,名词界定,计量专家语同惊人;职能交叉,检测矜持由来已久,监管之争,诸多问题随之暴露;规范监管
年届七旬的美国高通公司董事长艾文·雅各布温文谦和。在人群中你很难看出就是这位看上去像个退休教授的老人,正领导着一支5000多人的队伍在全球电信市场上叱咤风云。而仅
猪蛔虫广泛寄生于猪消化道内。中幼猪极易受侵害而染蛔虫病。该病流行十分广泛,发病率高达50%左右。猪蛔虫在猪体内寄生过程中对肝、肺、肠道等脏器的损害非常严重,往往造成