论文部分内容阅读
21世纪,是信息爆炸的时代,网络作为信息传播的媒介也得到迅猛发展,从英特网到无线网,无不发生着日新月异的变化。卫星网络作为通讯手段的一种,也备受人们关注。随着卫星事业的向前发展,卫星使用范围从军用扩展到民用,涉及手机通信、电视广播、导航定位、数据传输等各个领域,卫星协议的数量也随着膨胀,但是针对于卫星协议的分析手段却少之又少,尤其是在信息对抗时,掌握对方使用的协议信息是第一步也是关键性的一步,了解了对方协议信息,才能继续展开后续工作。协议识别从协议出现开始就有人研究,而大多数都集中在英特网应用层协议上,从早期的端口号识别方法到后来的静态特征字段识别,都是针对于应用层协议识别的手段,却鲜有卫星协议的识别手段。本文将以数据挖掘为手段,从特征字段的角度出发,研究卫星通信链路层协议识别的问题。主要研究内容分为3部分。首先,探讨了适用于应用层协议识别的数据挖掘算法Apriori_App Layer,其主要功能是挖掘应用层协议的特征字段。针对应用协议中存在较长特征字段时Apriori_AppLayer算法效率低下的情况,我们提出了适用于长频繁项集挖掘的逆连接Apriori_AppLayer算法,减少扫描协议数据次数达到提升效率的目的。其次,针对卫星通信链路层协议数据的特点,提出了适用于卫星通信链路层协议数据挖掘的Apriori_Bit算法,功能包括同步字节与帧长挖掘、特征比特串挖掘、关联规则挖掘3部分。同时,分析了Apriori_Bit算法在误码环境下的准确率。针对Apriori_Bit算法中存在的“冗余频繁项集”问题与特征字段由于出现频次不高导致漏报的问题,提出了基于权重的Apriori_WBit算法。最后,为了应对海量数据分析需求,将Apriori_Bit扩展实现于高效稳定的Hadoop云计算平台。同时为了进一步提高Apriori_Bit算法在Hadoop云计算平台上的运行效率,研究分析了Hadoop集群的调优策略,从减少集群节点传输消耗和I/O耗时的角度,提出了压缩中间数据、修改作业属性、加入Combiner中间函数以及数据预处理4方面调优手段。