【摘 要】
:
随着信息技术的飞速发展和广泛应用,目前许多组织都拥有非常庞大的数据库,并且数据量仍然以每天数百万条记录的速度快速增长。传统的统计和机器学习算法大多是以数据从静态分布
论文部分内容阅读
随着信息技术的飞速发展和广泛应用,目前许多组织都拥有非常庞大的数据库,并且数据量仍然以每天数百万条记录的速度快速增长。传统的统计和机器学习算法大多是以数据从静态分布中随机抽取样本为假设前提的,然而当前可得到的用来进行数据挖掘的大型数据库一般都违反这一假设。这些数据的产生经过了数月或者数年的时间,而数据生成过程在这段时间又发生了改变,有时甚至是根本性改变,从而使得传统的统计和机器学习算法不再适用。因此有必要对流数据挖掘算法进行研究。
本文重点研究了基于决策树的两种流数据挖掘分类算法VFDT(Very FastDecision Tree learner)和CVFDT(Concept-adapting Very Fast Decision Treelearner)。VFDT可以进行实时分析,它对每个样本使用固定的内存和时间来处理,并在此基础上建立决策树。VFDT能够使用现有的硬件设备来合并每秒成千上万的样本数据,并使用Hoeffding边界来保证它的输出结果收敛于传统学习器得到的结果。CVFDT在VFDT的基础上做出了一些调整和改进,它以生成一棵派生树的方式来利用绝大多数的旧数据从而保持决策树的更新,一旦旧的决策树变得不可靠而新的决策树变得更准确的时候,就用新的决策树替换旧的决策树。
基于上述的算法研究,本文对网络与信息安全领域的入侵检测系统进行了研究,根据通过入侵检测系统数据的特征以及流数据挖掘分类算法的目的,分析将流数据挖掘分类算法应用到入侵检测系统的必要性和可行性,并尝试利用UCI(University of California,Irvine)KDD Archive中用于入侵检测领域的测试数据集进行实证研究,从而为算法开辟了新的应用领域,并且也可以从不同的角度来检验算法的适用性,为下一步的研究工作奠定基础。
其他文献
“脱贫攻坚贵在精准,重在精准,成败之举在于精准.”自2013年11月,习近平总书记在湖南湘西十八洞村首次提出精准扶贫理念以来,“精准”二字始终是习近平总书记部署脱贫攻坚工
疫苗研发,中国处于领先位置 2020年9月5日,在中国国际服务贸易交易会上,中国国药集团就展示了两款均已进入3期临床试验阶段的新冠灭活疫苗。一款由北京生物制品研究所生产,另一款由武汉生物制品研究所生产,中国生物在北京和武汉两个研究所分别建设了高等级的新冠疫苗生产车间,两个车间合计产能可达3亿剂。由于是灭活疫苗,安全性也比较高。 此外,中国另一款疫苗更具有特色,这就是中国军事科学院研制的腺病毒载
近几年,我国在各个领域都取得了长足的进步,机械制造业在这种良好的社会环境中迅猛发展.机械制造业的发展壮大对国家的经济建设起了很好的助推作用.以往的机械设计已经无法满
本文结合传统制造型企业供应链管理,分析软件企业自身特点提出针对软件产业链中不同阶段企业的不同的供应链构建策略及主要管理内容;并重点阐述了基于产品的软件企业供应链的设
邓小平以马列主义的宽阔眼界,对国际战略环境进行了科学的分析和判断,提出了国际战略的一些重要原则,并按照对外战略原则,结合国际局势的风云变幻,为我们作出了重要的、带有根本性
近年来,电子政务的发展受到世界各国的广泛重视。通过电子政务建设,不仅可以建立一个勤政、廉洁、精简和有竞争力的政府,还能够提高政府办公的透明度和效率,创造一个公开、公正、
电气自动化控制设备的广泛应用,不仅促进了企业的发展,同时也促进了我国生产力的提高,同时这对促进人们的生活质量提高也具有十分积极的意义.但企业在应用电气自动化控制设备
在弥渡县密祉乡,人们传颂着共产党员、退休回乡职工李修文带头冒风险、顶压力,坚持反腐败的感人事迹。今年68岁的李修文,退休前系云南滇西电业局供电所副主任。他的家乡密祉
为了认真学习江泽民总书记在庆祝建党80周年大会上的重要讲话,推动我区经济和社会的全面发展,自治区党委中心组于近期召开了“深刻领会‘七一’讲话精神,努力实践‘三个代表
面对国际复杂多变的政治、经济局势,内循环成为业界与社会热议的新词。习近平指出,要把满足国内需求作为发展的出发点和落脚点,逐步形成以国内大循环为主体、国内国际双循环相互促进的新发展格局。 改革开放四十年,中国面向全球开放,积极参与全球产业链的外循环,带动了国内经济的飞速发展。所谓外循环,简单地说,就是中国作为世界工厂,进口资源,发挥劳动力与产业链优势,生产产品,再出口出去。 在这个过程中,从产品