基于流量测量的高速IP业务感知技术研究

被引量 : 5次 | 上传用户:smlz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
业务感知技术是深入理解网络内在本质、有效掌握网络运行状况的根本途径,是进行应用趋势分析、QoS管理、网络优化以及异常行为检测的重要手段。近年来随着现代网络技术的迅猛发展,互联网在总体规模和体系结构上发生了重大改变:用户数量快速膨胀、业务类型日趋复杂、P2P流量吞噬网络带宽、非法信息日益泛滥,端口伪装和应用层加密技术得到广泛应用。传统的基于端口和有效载荷的检测方法已不能适应当前及未来的业务感知需求,高速IP网络中的流量分类技术正面临着严峻的挑战。本文依托国家863计划重大课题“面向三网融合的统一安全管控网络”,结合项目对用户终端和融合业务实时识别和控制需求,立足于高速IP骨干网的流量测量为数据支撑,重点讨论了高速网络中业务的分类识别技术。鉴于基于机器学习的深度流检测技术(Deep Flow Inspection, DFI)和基于行为特征的深度用户检测技术(Deep User Inspection,DUI)在流量分类领域的巨大潜力,论文从“流级”和“用户级”对象的角度出发,紧密围绕“如何提取骨干链路的流量统计特征”和“如何提高流量分类的性能”展开研究,具体而言,本文的主要研究成果如下:1.针对传统大流检测算法漏检率高的缺陷,提出了一种基于LRU-BF(Least RecentUsed&Bloom Filters)策略的流量测量算法。该算法使用LRU淘汰机制、Bloom Filters快速表示方案,将“大流过滤”和“大流判断”分离,较大地提高了测量的准确性。基于“帕累托分布”和“超几何分布”推导了错误概率上界的解析表达式。仿真结果表明:与传统Na ve-LRU算法相比,LRU-BF在保持较低错误概率和空间复杂度的同时,也能够满足单线路40Gbps的线速报文处理能力。2.针对经典计数布鲁姆过滤器(Na ve Counting Bloom Filters, NCBF)低准确性和低空间利用率的缺陷,提出了几何布鲁姆过滤器(Geometric Bloom Filters, GBF)概要数据结构。该结构通过引入“哈希指纹”、布鲁姆过滤器两次分割、基于桶负载存放的方法,实现了流量统计特征的简洁表示和快速查询。基于“微分方程”理论对GBF模型进行了理论分析和求解,建立了错误概率和计算复杂度的关系表达式,论证了GBF的几何分布特性。与NCBF进行了对比仿真,结果表明:在计算复杂度相等的前提下,GBF的错误概率可降低至10-2数量级,空间利用率提升了约20%。3.针对传统方法分类精度较低的缺陷,提出了一种基于半监督近邻传播学习的流量分类方法(Traffic Classificationbased onSemi-supervised Affinity Propagation, SAP)。通过引入“近邻传播聚类”机制构建分类模型,使得分类器实现过程简单、运行高效,且不受初始点选择的困扰。应用“半监督学习”思想:将少量已标记样本流抽象为成对点约束,修改样本流之间的距离测度;应用“ε-近邻距离”的伸缩机制和“流形相似度”的距离测度,获取了样本流的空间分布先验信息,使得分类器更加贴近实际的网络环境。基于“中心极限定理”和“契比雪夫不等式”分析了SAP算法的分类凝聚性能,实验结果表明:在误差平方和保持较低的同时,算法的分类精度可提升至90%左右。4.针对近邻传播学习算法(Affinity Propagation, AP)较高计算复杂度和较低准确性的缺陷,提出一种分层组合型半监督近邻传播学习算法(Semi-supervised AffinityPropagation Algorithm based on Stratified Combination, SAP-SC)。SAP-SC继承并扩展了SAP的“半监督”的思想:通过引入“分层聚类”的思想,将一次聚类过程等分成若干次SAP聚类,每层只抽样处理聚类“困难”的数据点;使用“组合提升”的方法来提高聚类性能,通过加权组合投票决定每个数据流的所属类簇。最后,对算法的准确率和计算复杂度进行了理论分析和实验仿真,结果表明:与AP和SAP相比,SAP-SC的计算复杂度降低了O(N1/2),分类精度提升至98%。5.针对传统机器学习分类算法的“概念漂移”问题,提出了一种基于用户连接图的流量分类机制(Internet Traffic Classification based on Host Connection Graph, HCG)。算法将{IP Address, Port}作为用户唯一标识,构造了用户连接图;应用“图挖掘”理论将用户连接图划分为互不相交的行为子簇,使得用户之间的通信抽象为一种“社会团体行为”;定义了基于信息熵的“用户行为模式”(User Behavior Mode, UBM),并使用“UBM+Port”对用户行为子簇进行了业务标签映射,实现了流量分类的目的。最后,立足于实际的网络链路数据进行了仿真实验,结果表明:在不牺牲识别准确率和计算复杂度的前提下,算法能够克服“概念漂移”问题。
其他文献
在当代的油画界,众多油画家们在油画语言的探索中主动借鉴和吸收中国传统绘画中的写意精神来丰富自己的绘画语言深度和凸现自己的文化特质,将中国的写意精神用不同的方式和情感
本文在阐述微时代背景下大学教育管理重要性和分析存在问题的基础上,探讨了微时代下完善大学教育管理工作的对策:转换传统教学模式;提升教育工作者对于互联网和信息管理理念
1997年,北京城建集团投资100多万元,培养了85名“国际焊工”。其中83人通过了培训考核,66人通过了陕京线国际监理小组依据《陕京天然气管道焊接技术规范》组织的现场考核,获得了
针对综放开采条件下瓦斯涌出问题,选取阳煤五矿为研究对象,基于现场通风、瓦斯数据,统计分析综放工作面的瓦斯涌出特征,结合阳煤五矿瓦斯赋存规律及覆岩裂隙演化规律,对综放条件下
介绍了王庄煤矿上、下组煤的运输方案,通过方案对比法,结合王庄煤矿实际,提出了分时段运输的分采分运方案,解决了王庄煤矿采面接替紧张、场地紧张的情况下尽早出煤的难题。
<正>河南省固始县是鄂豫皖革命根据地的重要组成部分。1928年3月18日,固始县爆发豫南地区最早的大荒坡起义。1929年,杨山煤矿暴动诞生的河南第一支工人武装,开辟了以杨山为中
预算控制是现代企业会计控制的一种主要方式,企业通过预算控制,能使企业的经营目标转化为各部门、各个岗位甚至于个人的具体行为目标,作为各受控单位的约束条件,从根本上保证
本文是一篇翻译项目报告。翻译的原文为《C形包围——内忧外患下的中国突围》一书中的第三章《丧钟为谁而鸣:冷观美国反恐战争》,作者是中国人民解放军空军大校戴旭。原文以美
区域地质调查工作是地质工作的基础、是资源勘探的前提,其采集的数据种类多、信息量大,采用移动GIS技术实现数字地质调查对于改善地质数据的全面性和准确性,提高数据采集效率
从人类经济社会发展的历史进程来看,各界对汇率问题的关注由来已久。作为目前世界上最大的发展中国家,中国的人民币在国际货币体系中的地位也由于其对世界经济发展的重要作用变