基于主动集成学习的软件缺陷预测模型研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:c1133186
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
软件缺陷预测技术在软件生命周期中具有重要的地位,能够准确的捕捉到缺陷及其具体数目,定位到软件缺陷所在的具体模块有利于提高软件质量;保证软件的性能;节约软件测试成本。然而,具有缺陷的模块只占有很小的比重,导致在训练模型的过程中缺陷样本很难被捕捉,高维度的冗余特征也会影响最终的分类精度。此外,刚刚开发完毕的软件在各方面数据都不完善,特别是样本的标记情况,样本数量不足以建立精确的预测模型。因此,本文就上述问题展开了深入的研究和分析。首先,就数据不平衡问题提出了基于SMOTE-ENN的数据处理算法,对数据集中的异常值进行检测并进行处理,进一步采用组合采样方法的思想,在达到数据平衡的同时,依据样本的K近邻清洗类别重叠的数据,从而能更好地进行分类。其次,针对高维度的冗余特征,提出了Select K-GBDT的特征组合算法,首先通过卡方检验,根据特征与软件缺陷的相关度进行特征筛选,随后基于决策树将筛选得到的关键特征进行组合使其更好地表达数据。再次,针对新开发项目历史数据稀缺的问题,提出了基于主动集成学习的软件缺陷预测模型。在初始随机选择少量样本后,根据信息熵对样本进行排序,为信息量最大的样本赋予标记并更新样本池。在主动学习过程中采用Boosting集成学习模型,整个过程经过多次迭代,在仅使用少量训练样本的条件下达到了较高的预测精度。最后,本文在公开数据集上进行对比实验,分别验证了基于SMOTE-ENN的数据处理方法、Select K-GBDT特征组合方法、以及最终基于主动集成学习软件缺陷预测模型的有效性以及泛化能力。
其他文献
在软件工程中,软件缺陷是对软件质量影响最大的因素。人工审查代码的速度和效率已经日趋不能满足软件系统生产发展的需要,因此,高效的软件缺陷预测变得愈发重要。本文针对软件缺陷预测中的特征选择问题进行了深入研究,以支持向量机为分类器,搭建了软件缺陷预测模型,并使用多个评价指标检验软件缺陷模型的性能。主要研究内容如下:首先,提出了一种基于多种关联性指标的综合排序过滤式特征选择算法。为了合理的评价特征与标签的
海面溢油污染是当今世界上最常见、影响最恶劣的海洋污染问题之一,严重危害生态环境安全和社会发展,加大对海洋溢油污染治理和改善的力度,刻不容缓。准确且快速的定位识别海面溢油是治理海洋溢油污染的基础与前提,但是目前针对海面上不连续分布的溢油还未见有可用的理论研究成果和成熟的探测方法,无法得到准确的探测与评估结果。因此,研究准确高效的不连续溢油的监测手段,是当前治理海面溢油污染的重要工作之一。为了弥补这一
在最近的几十年里,分布式频谱通信系统因具有抗隐秘性好、抗干扰能力强、可降低电磁干扰等诸多优势,在蓝牙、测距定位、移动宽带、民用数字蜂房等领域有着重要的应用。而分布式通信系统的同步、抗干扰、抗截获、多址通信等性能的好坏都与系统中所采用的扩频序列的特性密切相关。这就是为什么研究和推广序列设计理念的原因所在。因此,设计性能优良的扩频序列对提升现代分布式频谱通信系统的性能具有至关重要的理论意义和毋庸置疑的
多层异构网络能降低传输路损,提升用户服务质量,已成为5G网络的主要框架。为描述异构网络的主要性能,人们提出了网格模型和随机几何模型。其中网格模型假设固定的网络拓扑——固定的基站用户位置与数目。此假设虽适用于传统的单层宏基站网络,却难以应用在随机组网的多层异构网络中。相比于网格模型,随机几何模型假设随机的网络拓扑,能描述异构网络的随机特性,并可精确地刻画网络性能。然而引入随机几何模型也产生了复杂的数
火灾是影响全球众多植物群落结构和分布的重要生态因子。近年来,林火发生的频率和强度急剧增加,北京延庆、四川凉山、山西五台山等陆续发生的森林火灾都带来重大损失,而其中树冠火生长蔓延的强度和损失都是最大的。针对现有树冠火研究多偏重于火焰蔓延的数值模拟以及简单可视化,本文提出一种树冠火生长蔓延的实时仿真算法。首先,本文采用基于粒子系统的方法结合N-S方程进行火焰模型的构建。采用Helmholtz-Hodg
头发仿真模拟可应用于游戏动画、电影电视、虚拟仿真等一系列领域,具有非常重要的地位和广阔的发展前景。如何对头发进行发丝建模及造型控制、头发的运动及碰撞如何处理以及如何更好地展示头发在自然光以及人造光照射下的视觉效果都是需要考虑的问题。因此,本文重点对这三部分进行研究和讨论。首先,针对头部模型的建模问题,本文采用Maya2018建模软件对头部模型进行绘制,并对头部模型的顶点、网格线及面进行调整,从而解
随着近几年万物互联业务的高速发展,数据流量业务的指数式增长,频谱资源匮乏现象日益严重。频谱资源的二次利用,能在一定程度上解决频谱资源短缺的现象,提高频谱利用率。LTE-V2V通信网络不仅能实现V2V链路共享蜂窝用户的频谱资源,还能降低信息传输时延以及小区基站负载压力。但是,LTE-V2V通信网络在实现V2V链路复用蜂窝用户频谱资源的同时,蜂窝用户和V2V链路之间还会产生共道干扰,当共道干扰严重时将
火灾作为一种发生频率较高的多发性灾难,有着蔓延速度快、破坏性强的特点,严重威胁人民群众的生命财产安全。因此,及时检测到火情并进行预警,给疏散救援争取宝贵时间,对火灾的防治和保护人民生命财产具有重要意义。随着计算机视觉技术的发展和普及,基于计算机视觉的目标检测技术发展迅速。与传统的基于传感器的火灾监测技术不同,基于机器视觉的火灾监测技术需要使用的设备更加简单,检测精度更高,实时性更强,更加不容易受到
随着无线通信技术的发展,智能设备的接入数量快速增长,导致无线网络资源短缺,为了解决这一问题,学术界将能量收集视为一种解决能量供给问题的有潜力的方案。无线携能通信技术为无线通信网络中的信息传输和能量收集提供了有效的技术保证。将无线携能通信技术用于协作中继网络,增加了通信覆盖范围的同时,也延长了中继的电池寿命。但是,两者的结合也引发了一些问题和挑战,如能量收集和速率传输的权衡问题,以及如何解决多变量耦
随着人工智能技术的发展,虚拟康复已经成为一种有效的运动康复疗法,并被医疗机构和养老机构广泛接受。然而现有的虚拟康复方法在人机交互方面存在自然性差,训练过程不友好的问题,降低了患者的康复体验,导致很多患者难以得到最佳的康复治疗效果。本文针对上述问题,研究了面向虚拟康复姿势识别算法,并开发了相应的训练系统,具体研究内容如下:首先,设计了能满足患者多种康复需求的基于上下肢和躯干局部姿势组合的康复姿势集合