基于统计特征的P2P流量识别技术研究

来源 :扬州大学 | 被引量 : 0次 | 上传用户:wf931
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
P2P是近年来互联网最热门的技术之一,在VoIP、文件下载、流媒体、协调计算等领域得到飞速发展。P2P应用对网络带宽资源消耗巨大,据统计P2P业务的带宽占用比率大致是40%~60%,在极端情况下会占用80%~90%,对Web、Email等其他网络服务构成了严重威胁,并且由于P2P应用的吞噬特性,仅仅增大带宽并不能缓解网络拥挤状况。为保障正常业务的运行,ISP、企业网、校园网纷纷希望在网络繁忙时段能够对占用大量带宽的P2P应用加以限制,P2P流量的准确识别是这一愿望得以实现的前提。   本文从研究背景出发,介绍了P2P的定义与特点、P2P的工作原理以及P2P的典型应用,并对其中主要部分进行相关分析,研究了由于自身特点给网络环境带来的一些问题,明确了监控P2P流量对网络正常运行的必要性,由此引出P2P流量识别的重要性。接着对P2P流量识别的各个主要技术进行简要的介绍,概要的分析了三大主要识别技术的优缺点和经典文献,从算法的时空复杂度和P2P流量本身的特性两点上,本文得出基于统计特征的识别方法的优越性。   为了全面的分析各个P2P流量识别方法的特点,本文依据统计特征的差异性综述了P2P流量识别方法,我们指出P2P流量识别方法分为基于人工经验的和基于机器学习方法两个大类。其中,基于人工经验的识别方法依据所采用的统计特征的不同又可加以细分,本文所归纳的统计特征有:IP端口对特征、网络直径特征、节点角色特征、传输层类型和上传下载比率特征。基于人工经验的识别方法能够依据单一或者多个统计特征,对离线P2P数据集进行批处理式的扫描,识别准确率较高,然而,由于没有权威数据集的支撑,大多数方法仅依靠人工进行统计分析,其分析结果受方法的约束较大。基于机器学习的识别方法正是针对这一问题所提出的,也是目前研究的特点。把统计特征与机器学习算法相结合,能够利用统计特征的准确性和机器学习算法的稳定高效性。本文所归纳的机器学习算法有:支持向量机、神经网络、决策树以及相关流挖掘算法。   为了验证统计特征与机器学习算法结合识别的有效性,本文指出传统学习方法由于内存限定的局限性,无法在超过限定内存的情况下继续进行流量识别。本文通过结合统计特征和快速决策树识别方法,来解决快速到达的在线流数据,实验表明,该方法与传统决策树方法C4.5相比,在不损失准确率的前提下,保证了大量数据的持续识别。   为了解决在概念漂移环境下,结合统计特征与机器学习算法进行识别的正确性,本文指出传统机器学习方法由于假定实验数据平稳分布,无法在具有概念漂移的环境中对大量数据进行有效识别。本文通过结合统计特征和概念自适应快速决策树识别方法,来解决具有概念漂移的在线数据识别,实验表明,该方法与增量决策树学习算法VFDT相比,提高了识别的正确率,并且维持了较好的算法复杂度。   最后本文对P2P流量识别系统进行了研究。P2P流量识别系统由流量采集、数据预处理和流量识别三个模块组成,本文分别对每个模块进行了简要的分析。
其他文献
随着互联网的快速发展,网络上的信息呈爆炸式增长,如何快速而准确地获取用户感兴趣的信息,这一需求推动了信息抽取的发展。信息抽取最常用的方法是模式匹配法,为了减少自动抽
随着互联网的快速发展,网络上关于某一主题的新闻报道呈爆炸式增长,大量的事件信息存在冗余、不完整、不一致、有歧义现象。如何能快速准确地获得某一主题详细而完整的信息是
随着网格技术的不断发展及网格应用研究的深入,网格环境下业务流程越来越复杂。随着业务流程规模因跨领域跨组织而增大,导致业务流程的高复杂性,就会由于状态空间爆炸而给网
在Ad hoc网络应用中,存在的主要问题是安全问题和资源消耗问题。如何在路由过程中保证安全,并节省有限的资源和通信带宽是目前需要解决的主要问题。本文针对Ad hoc网络路由的
随着大数据时代的到来,传统的技术已经无法满足日益增长的存储需求,分布式存储技术应运而生。HDFS是Apache开发的云计算平台Hadoop的分布式存储系统,可以运行在大规模廉价的
随着互联网的快速发展,计算机软件的运行环境逐渐开放化,软件动态演化已经成为软件工程领域的研究热点之一。面向方面编程(AOP)是一种新兴的编程技术,其关注点分离技术能较好
随着互联网的各种应用在生活中的普及度逐渐提高,全球数据量呈指数级别的增长。根据互联网数据中心的调查显示,早在2011年全球数据量已突破2万亿GB。IBM副总裁在2016年的闪存
随着网页信息量越来越大,采用通用搜索引擎搜索某一个方面的信息时覆盖率和准确率低,回馈的内容不够详细,噪音过多,维护庞大的网页索引库特别困难,在信息的采集和存储面临着
目标反射光在湍流的大气中传播,传播过程中受到随机的干扰,其折射率随时间和空间变化而随机变化,光的传播方向和相位发生抖动,这使成像焦平面产生像点强度随机起伏,强度分布
随着信息技术的发展,数据挖掘技术得到了广泛的关注。在很多研究领域中,关联规则挖掘是数据挖掘中比较重要和活跃的研究方法之一,对它进行深入研究不仅有重要的理论意义,而且