基于集成学习与半监督学习的网络入侵检测方法的研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:hachu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为保护网络安全的一项重要组成部分,网络入侵检测系统长期以来受到较高的重视。近年来,随着人工智能的普及,许多基于机器学习的技术被应用于网络入侵检测系统,并依赖于数据构建检测模型。这种数据驱动的方法虽然能够大幅度地减少人工识别的代价,却也存在着一些的问题。首先是原始数据质量参差不齐,网络入侵检测运用的数据大部分是网络流量数据,而流量数据的数量是巨大的,其中会存在着大量冗余及噪声数据,而数据特征中也存在着部分不必要的内容,这些部分极大地影响了检测模型的精度。其次,在构建检测模型时,由于流量数据中缺乏攻击行为,数据分布会严重不平衡,造成训练模型对攻击行为缺乏认知,泛化能力较弱,检测性能低下等问题。再次,大部分基于机器学习的检测模型采用了无监督学习或者有监督学习的方法构建模型,仅仅采用无监督学习方法,由于缺乏标签数据的引导,会造成模型的性能较差,准确率低,误报率高等问题。而仅仅采用有监督学习的方法,检测模型会依赖于标签数据,使其缺乏对新型攻击的认知,并且当标签数据匮乏时,会严重影响有监督学习方法的性能。针对于上述提出的问题,本文首先提出一种针对流量数据的处理办法,该数据处理方法中运用了PCA算法进行数据压缩,采用聚类算法进行数据采样,从而改善了流量数据冗余的状况,去除噪声数据,加速后续模型的训练。其次,本文提出了一种基于宽度学习的集成模型——BLET(Broaden Learning-based Ensemble Tree),采用了带权重决策树作为基分类器,解决数据不平衡问题,并通过宽度学习方法进行集成,提高模型的泛化能力。之后,本文进一步提出了一种半监督学习式的学习算法——FSSLT(Fuzziness-based Semi-Supervised Learning Tree),解决由于单纯采用有监督学习或无监督学习带来的检测缺陷,以及标签数据稀少的问题。最后,通过实验进行综合对比,提出的算法能够带来良好的检测效果,并且能够优于当前较新的入侵检测技术。
其他文献
电视晚会的观看者面对节目材料的接受与影响是多元性的。观看者先在的前设性视觉经验与视知觉交流的时间与空间距离的差异,都具有改造并克服视觉对象原状特性,形成差异的多元的
对流域水资源可再生能力进行科学评判,针对评价中存在随机性及模糊性的特征,建立起基于云理论的流域水资源可再生能力综合评价模型。综合考虑水资源条件、社会经济条件及用水
<正>近三十年来,我国城镇化与工业化进程较快,但这过程中的高强度规划建设与不合理土地利用却对环境压力巨大,由此导致的区域性环境问题,已成为威胁人类安全的生态危机。为在
【正】 “瓯脱”一词,在《史记》、《汉书》中凡六见,兹列于次: “与匈奴间中有弃地,莫居千余里,各居其边为瓯脱”。“匈奴所与我界瓯脱,外弃地”。“发人民屯瓯脱”。“瓯脱
IT与食品保质期食品都有保质期;顾客对此也尤为关注。因此,食品制造企业就要比顾客还要更关注保质期。怎样尽量减少产品因为过了保质期而产生的浪费?怎样才能保证产品及时准
统万城和薄骨律是十六国北方少数民族建立的两个城市,古代文献中关于这两个城市名称的汉语解释都是望文生叉的凭空杜撰。根据古今民族语言之间存在的关系,利用现代北方游牧民族
心理疲劳是目前教师中大范围存在的心理现象,教师心理疲劳必然影响教育教学的效果.通过对教师心理疲劳产生和影响因素的分析,找出缓解教师心理疲劳的方法是目前教育主管部门
为保障分布式能源规划的科学性与可靠性,进行了分布式风电选址与选型研究。运用威布尔分布表征全年风速分布变化,并结合风机功率曲线方程,对风机出力波动性进行建模。在此基
统万城是十六国时夏国的都城。十六国中叶 ,匈奴铁弗部刘卫辰为魏所败 ,其少子刘勃勃南逃投后秦 ,秦王姚兴对他很器重 ,遂命为安北将军 ,使镇朔方。勃勃兵权在握当即与后秦反
阐述了价值工程的概念、价值工程的工作程序、方案评价,结合实际案例分析了价值工程在建设工程设计阶段的应用。