论文部分内容阅读
近年来,随着互联网的高速发展和新型互联网服务的涌现,丰富的网络应用给我们的日常生活带来了极大的便利,然而任何事情都具备两面性,互联网亦如此。日益复杂的互联网系统架构,以及越来越多的新型应用,使得互联网的监管愈加困难。特别是随着各类 P2P应用的广泛使用,其对互联网带宽的消耗剧增,这已严重地侵害了传统的互联网服务。因此针对 P2P流量的分类与识别已成为目前网络管理与规划的迫切需求。 本文的研究工作主要包含了以下三个方面: 一、阐述了课题相关的研究背景,学习借鉴了国内外的研究现状,并在此基础上全面地分析了基于端口号、基于深度包检测、基于统计特征的 P2P流分类方法的实现原理及优缺点。 二、通过对采集的P2P流量进行包长分布序列的统计与分析,概括性的描述了 P2P流传输模式。提出并实现了基于距离的特征选择算法,从而筛选出自有的特征子集。根据前人所做分析与总结,本文选用 C4.5与SVM作为分类模型的构建算法。 三、将前文所提的统计特征子集与所选的机器学习算法相结合,实现了基于统计特征的 P2P流分类方法,并利用分类评价标准,对该方法进行了全面的测试与评价。 评价结果标明,该方法能够对 P2P流量进行有效的分类,基本实现了设计的目标。在总结了该法的优势与不足之后,文中还对可改进的方面提出了意见,并指明了今后的研究方向。