论文部分内容阅读
业务感知技术是深入理解网络内在本质、有效掌握网络运行状况的根本途径,是进行应用趋势分析、QoS管理、网络优化以及异常行为检测的重要手段。近年来随着现代网络技术的迅猛发展,互联网在总体规模和体系结构上发生了重大改变:用户数量快速膨胀、业务类型日趋复杂、P2P流量吞噬网络带宽、非法信息日益泛滥,端口伪装和应用层加密技术得到广泛应用。传统的基于端口和有效载荷的检测方法已不能适应当前及未来的业务感知需求,高速IP网络中的流量分类技术正面临着严峻的挑战。本文依托国家863计划重大课题“面向三网融合的统一安全管控网络”,结合项目对用户终端和融合业务实时识别和控制需求,立足于高速IP骨干网的流量测量为数据支撑,重点讨论了高速网络中业务的分类识别技术。鉴于基于机器学习的深度流检测技术(Deep Flow Inspection, DFI)和基于行为特征的深度用户检测技术(Deep User Inspection,DUI)在流量分类领域的巨大潜力,论文从“流级”和“用户级”对象的角度出发,紧密围绕“如何提取骨干链路的流量统计特征”和“如何提高流量分类的性能”展开研究,具体而言,本文的主要研究成果如下:1.针对传统大流检测算法漏检率高的缺陷,提出了一种基于LRU-BF(Least RecentUsed&Bloom Filters)策略的流量测量算法。该算法使用LRU淘汰机制、Bloom Filters快速表示方案,将“大流过滤”和“大流判断”分离,较大地提高了测量的准确性。基于“帕累托分布”和“超几何分布”推导了错误概率上界的解析表达式。仿真结果表明:与传统Na ve-LRU算法相比,LRU-BF在保持较低错误概率和空间复杂度的同时,也能够满足单线路40Gbps的线速报文处理能力。2.针对经典计数布鲁姆过滤器(Na ve Counting Bloom Filters, NCBF)低准确性和低空间利用率的缺陷,提出了几何布鲁姆过滤器(Geometric Bloom Filters, GBF)概要数据结构。该结构通过引入“哈希指纹”、布鲁姆过滤器两次分割、基于桶负载存放的方法,实现了流量统计特征的简洁表示和快速查询。基于“微分方程”理论对GBF模型进行了理论分析和求解,建立了错误概率和计算复杂度的关系表达式,论证了GBF的几何分布特性。与NCBF进行了对比仿真,结果表明:在计算复杂度相等的前提下,GBF的错误概率可降低至10-2数量级,空间利用率提升了约20%。3.针对传统方法分类精度较低的缺陷,提出了一种基于半监督近邻传播学习的流量分类方法(Traffic Classificationbased onSemi-supervised Affinity Propagation, SAP)。通过引入“近邻传播聚类”机制构建分类模型,使得分类器实现过程简单、运行高效,且不受初始点选择的困扰。应用“半监督学习”思想:将少量已标记样本流抽象为成对点约束,修改样本流之间的距离测度;应用“ε-近邻距离”的伸缩机制和“流形相似度”的距离测度,获取了样本流的空间分布先验信息,使得分类器更加贴近实际的网络环境。基于“中心极限定理”和“契比雪夫不等式”分析了SAP算法的分类凝聚性能,实验结果表明:在误差平方和保持较低的同时,算法的分类精度可提升至90%左右。4.针对近邻传播学习算法(Affinity Propagation, AP)较高计算复杂度和较低准确性的缺陷,提出一种分层组合型半监督近邻传播学习算法(Semi-supervised AffinityPropagation Algorithm based on Stratified Combination, SAP-SC)。SAP-SC继承并扩展了SAP的“半监督”的思想:通过引入“分层聚类”的思想,将一次聚类过程等分成若干次SAP聚类,每层只抽样处理聚类“困难”的数据点;使用“组合提升”的方法来提高聚类性能,通过加权组合投票决定每个数据流的所属类簇。最后,对算法的准确率和计算复杂度进行了理论分析和实验仿真,结果表明:与AP和SAP相比,SAP-SC的计算复杂度降低了O(N1/2),分类精度提升至98%。5.针对传统机器学习分类算法的“概念漂移”问题,提出了一种基于用户连接图的流量分类机制(Internet Traffic Classification based on Host Connection Graph, HCG)。算法将{IP Address, Port}作为用户唯一标识,构造了用户连接图;应用“图挖掘”理论将用户连接图划分为互不相交的行为子簇,使得用户之间的通信抽象为一种“社会团体行为”;定义了基于信息熵的“用户行为模式”(User Behavior Mode, UBM),并使用“UBM+Port”对用户行为子簇进行了业务标签映射,实现了流量分类的目的。最后,立足于实际的网络链路数据进行了仿真实验,结果表明:在不牺牲识别准确率和计算复杂度的前提下,算法能够克服“概念漂移”问题。