论文部分内容阅读
伴随着高速、大规模复杂网络的出现,网络流量数据呈现出多源、异构、海量的特点,致使网络流量分类面临巨大的挑战。目前存在的主要问题归结为:多个数据源提供的网络流量数据之间可能会存在数据不一致性问题,从而影响网络流量分类结果的准确性;面向海量网络流量数据的处理将会遇到单一节点的计算能力瓶颈,存在数据处理效率低下的问题。结合本体与云计算各自在海量异构数据描述与处理方面的互补优势,将其引入网络流量分类领域,研究本体驱动的并行网络流量分类方法。论文的主要创新工作有: 针对传统网络流量分类模型难以胜任大规模复杂网络环境下流量分类任务的问题,根据当前网络流量数据所呈现的新特点,提出一种本体驱动的网络流量并行分类模型。该模型划分为网络流量数据源层、网络流量本体构建层、网络流量分类层和应用服务层,将流量分类任务从数据采集、数据描述到数据分类按模块分层执行。并基于该模型设计原型系统,该系统能够较好地适应大规模网络环境下的网络流量分类需求。 为了解决网络流量数据并行集成及消除数据集成中语义异构问题,提出一种基于MapReduce的网络流量本体构建方法。该方法利用本体在知识描述方面的优势,抽象出网络流量的概念模型,对网络流量数据进行有机、分层、语义化描述,构建网络流量本体,并结合MapReduce并行处理架构将本体构建方法并行化。实验结果表明,集群环境下并行网络流量本体构建效率明显高于单机环境,而且适当增加计算节点可以使得加速比线性提升,这些优势随着流量数据规模的增大呈显著趋势。 为了提高大规模复杂网络环境下的网络流量分类性能,依据本体具备知识推理功能的特性,提出一种基于本体的并行网络流量分类方法。该方法针对本体描述的网络流量实例,借助决策树算法建立分类模型,转化生成推理规则集,最后通过并行化的知识推理引擎实现网络流量分类。实验结果表明,与SVM、BayesNet、BP神经网络分类方法相比,该方法采用的C4.5方法建立分类模型所需的训练时间明显低于其他方法,而且在识别准确率、泛化能力及稳定性方面表现最优,此外,该方法的并行分类效率明显优于单机环境。