论文部分内容阅读
P2P是近年来互联网最热门的技术之一,在VoIP、文件下载、流媒体、协调计算等领域得到飞速发展。P2P应用对网络带宽资源消耗巨大,据统计P2P业务的带宽占用比率大致是40%~60%,在极端情况下会占用80%~90%,对Web、Email等其他网络服务构成了严重威胁,并且由于P2P应用的吞噬特性,仅仅增大带宽并不能缓解网络拥挤状况。为保障正常业务的运行,ISP、企业网、校园网纷纷希望在网络繁忙时段能够对占用大量带宽的P2P应用加以限制,P2P流量的准确识别是这一愿望得以实现的前提。
本文从研究背景出发,介绍了P2P的定义与特点、P2P的工作原理以及P2P的典型应用,并对其中主要部分进行相关分析,研究了由于自身特点给网络环境带来的一些问题,明确了监控P2P流量对网络正常运行的必要性,由此引出P2P流量识别的重要性。接着对P2P流量识别的各个主要技术进行简要的介绍,概要的分析了三大主要识别技术的优缺点和经典文献,从算法的时空复杂度和P2P流量本身的特性两点上,本文得出基于统计特征的识别方法的优越性。
为了全面的分析各个P2P流量识别方法的特点,本文依据统计特征的差异性综述了P2P流量识别方法,我们指出P2P流量识别方法分为基于人工经验的和基于机器学习方法两个大类。其中,基于人工经验的识别方法依据所采用的统计特征的不同又可加以细分,本文所归纳的统计特征有:IP端口对特征、网络直径特征、节点角色特征、传输层类型和上传下载比率特征。基于人工经验的识别方法能够依据单一或者多个统计特征,对离线P2P数据集进行批处理式的扫描,识别准确率较高,然而,由于没有权威数据集的支撑,大多数方法仅依靠人工进行统计分析,其分析结果受方法的约束较大。基于机器学习的识别方法正是针对这一问题所提出的,也是目前研究的特点。把统计特征与机器学习算法相结合,能够利用统计特征的准确性和机器学习算法的稳定高效性。本文所归纳的机器学习算法有:支持向量机、神经网络、决策树以及相关流挖掘算法。
为了验证统计特征与机器学习算法结合识别的有效性,本文指出传统学习方法由于内存限定的局限性,无法在超过限定内存的情况下继续进行流量识别。本文通过结合统计特征和快速决策树识别方法,来解决快速到达的在线流数据,实验表明,该方法与传统决策树方法C4.5相比,在不损失准确率的前提下,保证了大量数据的持续识别。
为了解决在概念漂移环境下,结合统计特征与机器学习算法进行识别的正确性,本文指出传统机器学习方法由于假定实验数据平稳分布,无法在具有概念漂移的环境中对大量数据进行有效识别。本文通过结合统计特征和概念自适应快速决策树识别方法,来解决具有概念漂移的在线数据识别,实验表明,该方法与增量决策树学习算法VFDT相比,提高了识别的正确率,并且维持了较好的算法复杂度。
最后本文对P2P流量识别系统进行了研究。P2P流量识别系统由流量采集、数据预处理和流量识别三个模块组成,本文分别对每个模块进行了简要的分析。