不确定数据离群点检测算法及在网络取证中的应用

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:cx8105
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机网络的普及,各领域的数据量急剧增长,网络在人们日常生活中的重要性日益凸显。但是,随着网络不断融入人们的生活,各种类型的网络安全威胁也接踵而至。因此,网络取证技术引起广泛关注并迅速发展,它的核心要点是对网络中各种数据信息进行提取和分析。随着数据采集和分析技术的不断发展,传统网络数据分析方法在面对海量数据时力不从心,无法准确高效地判断网络行为。目前网络数据分析存在两大主要问题:一是现有的异常检测方法检测速率无法适配大规模数据;二是网络数据的不确定性影响了检测算法的准确性。基于此,本文应用不确定数据离群点检测算法对网络中的数据进行分析检测,最后判断出网络中的正常行为和异常行为。本文首先研究了分析网络数据信息用到的一些重要方法,然后利用特征选择算法对网络中的数据进行预处理,以便降低后续异常检测的复杂度,最后运用基于Isolation Forest和LOF的离群点检测算法分析网络数据信息。本文所做的工作可以归纳为以下三个方面:(1)研究特征选择算法,提出一种基于SVM-RFE和相关信息熵的特征选择算法网络数据数量大、维度高的特点使得数据预处理尤为重要,而特征选择是一种有效的数据预处理方法。现有的特征选择方法大部分仅考虑了单个属性对结果的重要度,未考虑特征之间的关系以及特征与类别之间的关系对结果的影响。因此本文首先利用SVM-RFE快速筛选冗余特征,然后利用相关信息熵度量采用前向搜索策略进行特征选择,最后选出最优特征子集。实验结果证明了该算法选择的特征的有效性。(2)研究不确定数据离群点检测算法,提出一种基于Isolation Forest和LOF的离群点检测算法针对不确定数据中膨胀的可能世界实例、新增的概率维等问题,本文算法首先利用Isolation Forest算法快速筛选离群点,然后利用重新定义的不确定数据的LOF值进行检测。通过与其他算法进行对比,本文的算法能有效地检测出离群点,提高了效率,具有良好的鲁棒性。(3)设计了基于Isolation Forest和LOF的网络取证系统在分析处理网络数据的基础上,针对每个过程进行了相应的功能实现,并将本文提出的基于SVM-RFE和相关信息熵的特征选择以及基于Isolation Forest和LOF的离群点检测算法应用于对应的模块中,最终设计了基于Isolation Forest和LOF的离群点检测算法的网络取证系统框架。该系统可以有效地分析数据,判断网络的正常行为和异常行为。
其他文献
20世纪70年代末开始的英国新公共管理运动有两方面主要内容:其一是通过加强政府的执行功能来完善政府的责任制度;其二是引进一定的竞争机制来落实政府的责任制度。总体上说,这两
我国稠油资源相对丰富,在原油开发中一直占据重要地位。但由于稠油中重质组份含量较高,导致其黏度较大。本文就我国现行稠油降黏技术进行介绍,提出了一些新型稠油降黏技术并
<正>宁政发(2013]110号各市、县(区)人民政府,自治区政府各部门、直属机构:《宁夏生态移民迁出区生态修复工程规划(2013—2020年)》已经自治区人民政府第13次常务会议审议通
<正>选题策划是出版社的生命,编辑是出版社的主力军,具备选题策划能力至关重要。编辑的选题策划能力在一定程度上决定一个出版社的前途。新疆人民卫生出版社是出版维吾尔医药
随着网络技术的发展,中职课堂中微课教学已得到广泛应用。Photoshop是专业的图像处理软件,应用十分广泛,Photoshop图形图像处理作为软件操作课程,其专业性和可视性都比较强,
在2012年3月由人民邮电报社主办的中国通信行业第三届云计算峰会上,天云科技的大数据产品体系吸引了众多对大数据产品格外关注的来宾的咨询。
随着我国课程改革的不断推进,学校对教师的教学工作提出了更高的要求。正是基于这种情况,本文以人教版高中物理选修3-1教材中的《静电场》为单元教学设计课题,进行系统的教学
应用有限元方法对平面渗流问题作了详细分析,对进一步确定渗流场的基本物理量有一定的价值。
干燥速度,空气温度,谷物温度、空气流速率以及太阳热的收集效率是决定太阳能烘干装置的重要参数。文中报道作者参与的,与日本筑波国际农机中心进行的试验结果。
从经济和社会两个方面出发,多角度评析当前我国土地承包经营权流转的综合效用,认为:有效的土地承包经营权流转能够促进土地资源的优化配置,促进农民增收;有效的土地承包经营权流转