基于机器学习的软件缺陷预测方案研究

来源 :北京邮电大学 | 被引量 : 5次 | 上传用户:shancjb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络科技的快速发展,用户对于软件的质量也提出了更高的要求。软件缺陷是影响软件质量的最大因素,软件缺陷的检测成为软件上线前的必经步骤。然而通常一个软件的体量非常巨大,如果要检查全部软件代码,花费的成本也是巨大的。软件缺陷预测的提出正是为了解决这一问题,将检测的人力物力更好的分配到可能有缺陷的地方,既可以提高效率又可以节省成本。本文针对基于机器学习的软件缺陷预测中对特征关联性考虑不足和无标签预测问题深入研究,从多个角度入手以提高预测的曲线下面积(Area Under Curve,AUC)指标,相比准确率指标更好的表达较少的有缺陷类的预测效果。论文主要成果有:首先,针对软件缺陷预测中分类的不平衡性,即与正常代码部分相比有缺陷的部分往往占少数,提出了新型的上采样方案。方案中增加了类内离散度信息与支持向量清洗策略,使得新样本分布更均匀。通过与多个上采样方案在多个软件缺陷预测中流行的机器学习方法上进行实验对比,证明了所提出的上采样方案取得了更高的AUC值。其次,从特征入手,根据每个特征对最终预测效果的影响程度对原有的特征进行筛选,提出一套特征筛选与预测为一体的方案。方案分别从正向增加特征与反向减少特征两个方面进行特征筛选,把噪声特征筛除的同时完成了特征的降维。实验结果表明,该方案与前人提出的特征降维预测方法对比,在AUC指标与时间复杂度上更优。最后,考虑到很多软件并没有多个版本的迭代,即没有标记好的数据,这就需要无监督学习来解决。本文提出了基于主要特征的自动标记方案,将分组后的特征映射到低维特征空间并使用聚类标记,最终在多个数据集上进行实验验证,结果表明该方案的AUC指标均有所提高。
其他文献
提出了常压下在鼓泡式反应器中以三种不同的有机胺(乙二胺、二乙烯三胺及三乙烯四胺)溶液作为吸收剂进行吸收及解吸SO2的新工艺。探讨了二乙烯三胺-胺-水多元体系在吸收SO2过程
煤矿用主通风机作为矿山安全生产的主要装备,向井下输送足够的新鲜空气,稀释和排除有害、有毒气体,调节井下所需的风量、温度和湿度,改善劳动条件,保证矿井安全生产,是矿井通
在实际工作中,资深员工往往在单位中起到比较重要的作用。这些员工工作时间长、了解情况多、人际关系广,虽然不是领导,也不是中层干部,却有着比较大的影响力。加强对资深员工的管
艺术考级活动的举办不仅提升了中国业余艺术教育水平,也促进了中国国民艺术素质的增长。通过对艺术考级的缘起、中西方考级活动对比以及对我国基础教育的影响等方面的剖析,探
萨义德的《东方学》是后殖民主义理论的奠基之作。文章从对东方主义含义的分析开始 ,以承接和递进的关系探讨东方及东方文化的真实性、质疑西方文化的纯粹性和独立性、论述东
研究北方地区有代表性的4种冷季型草坪草种在苗期水涝环境下其部分形态学、生理生化指标的变化特性,并对4种冷季型草坪草的耐涝性作出比较性的评价。
作为一本理论读本,《从图解思维到数字建造》是同济大学建筑与城市规划学院袁烽教授近年来对于“图解”在当代数字化设计和定制化社会生产语境下的意义的思考,也是他过去六年
<正> 靴,高到踝骨以上的长筒鞋。《晋书·刘兆传》:“尝有人著靴骑驴,至北门外。”《南史·萧琛传》:“[琛]乃著虎皮靴,策桃枝杖直造俭(王俭)座。”这是《辞海》对靴的注释。
取消高中文理分科不是一个单纯的与学生的素质或负担相关的问题,而是一个涉及到教育、知识、人和社会的发展等诸要素之间深刻复杂的矛盾关系问题。高中文理分科既是一种协调
目的探讨基于移动学习的人体解剖学数字化资源建设在基层医学教育中的作用。方法选取我校基层医学教育临床专业2017级、2018级各两个班学生为研究对象,然后各随机抽取每年级