论文部分内容阅读
软件缺陷在软件运行过程中可能会产生意料之外的行为,造成重大损失。软件缺陷预测模型需要大量的数据集标注,存在工作量大、成本较高等问题。主动学习可从未标注数据集中选择辨识度高的样例进行人工标注,从而提升软件缺陷预测模型建立的效率。在AEEEM公开数据集上对常见的4种主动查询策略(RANDOM、COMMITTEE、QUIRE、UNCERTAINTY)进行实证研究,结果表明,基于信息熵的不确定度策略UNCERTAINTY在数据集上有优于其他查询策略的表现。