论文部分内容阅读
随着计算机网络的普及,各领域的数据量急剧增长,网络在人们日常生活中的重要性日益凸显。但是,随着网络不断融入人们的生活,各种类型的网络安全威胁也接踵而至。因此,网络取证技术引起广泛关注并迅速发展,它的核心要点是对网络中各种数据信息进行提取和分析。随着数据采集和分析技术的不断发展,传统网络数据分析方法在面对海量数据时力不从心,无法准确高效地判断网络行为。目前网络数据分析存在两大主要问题:一是现有的异常检测方法检测速率无法适配大规模数据;二是网络数据的不确定性影响了检测算法的准确性。基于此,本文应用不确定数据离群点检测算法对网络中的数据进行分析检测,最后判断出网络中的正常行为和异常行为。本文首先研究了分析网络数据信息用到的一些重要方法,然后利用特征选择算法对网络中的数据进行预处理,以便降低后续异常检测的复杂度,最后运用基于Isolation Forest和LOF的离群点检测算法分析网络数据信息。本文所做的工作可以归纳为以下三个方面:(1)研究特征选择算法,提出一种基于SVM-RFE和相关信息熵的特征选择算法网络数据数量大、维度高的特点使得数据预处理尤为重要,而特征选择是一种有效的数据预处理方法。现有的特征选择方法大部分仅考虑了单个属性对结果的重要度,未考虑特征之间的关系以及特征与类别之间的关系对结果的影响。因此本文首先利用SVM-RFE快速筛选冗余特征,然后利用相关信息熵度量采用前向搜索策略进行特征选择,最后选出最优特征子集。实验结果证明了该算法选择的特征的有效性。(2)研究不确定数据离群点检测算法,提出一种基于Isolation Forest和LOF的离群点检测算法针对不确定数据中膨胀的可能世界实例、新增的概率维等问题,本文算法首先利用Isolation Forest算法快速筛选离群点,然后利用重新定义的不确定数据的LOF值进行检测。通过与其他算法进行对比,本文的算法能有效地检测出离群点,提高了效率,具有良好的鲁棒性。(3)设计了基于Isolation Forest和LOF的网络取证系统在分析处理网络数据的基础上,针对每个过程进行了相应的功能实现,并将本文提出的基于SVM-RFE和相关信息熵的特征选择以及基于Isolation Forest和LOF的离群点检测算法应用于对应的模块中,最终设计了基于Isolation Forest和LOF的离群点检测算法的网络取证系统框架。该系统可以有效地分析数据,判断网络的正常行为和异常行为。