论文部分内容阅读
随着大数据时代的到来及计算机技术的发展,人工智能由过去主要依靠专家系统实现变为通过算法实现,机器学习是众多算法的重要分支。机器学习以“模型”形式应用于人工智能软件中,“模型”质量的优劣很大程度上决定了人工智能应用的最终效果。对机器学习模型进行测评是保证“模型”和人工智能应用质量的重要手段。目前,在机器学习模型的性能和稳定性测评方面已有一定研究,但尚未形成完整的测评指标体系,且在测评模型鲁棒性方面存在一定研究空白。本文围绕“如何定义机器学习模型质量”、“如何构建测评指标体系与评价模型”、“如何实施测评”的问题展开研究,构建机器学习模型质量模型、测评指标体系、综合评价模型,提出相关测评技术,并进行指标处理。本研究为测评机器学习模型质量提供全面的指标体系和模型鲁棒性测评思路,在保证模型质量和人工智能应用质量方面有一定意义。首先,提出机器学习模型测评的概念、测评内容、方法分类,并对比分析机器学习模型测评与软件测评的异同,在深入分析机器学习模型特性基础上,提取模型的6个质量要素,即“性能”、“稳定性”、“鲁棒性”、“可实践性”、“工程效率”、“代码安全性”,并建立层次化的初始指标体系。接着,通过文献分析法提炼指标构建原则,并针对机器学习模型面向具体任务的特点,提出基于二次筛选的指标体系构建方法,分别是采用定性分析法做第一次筛选,采取专家问卷调查法与定性分析结合的方法做第二次筛选。接着,针对机器学习模型质量需求多变,指标较多的特点,提出简化的构造判断矩阵的方法,减少了人工定性比较的次数,利用层次分析法确定指标权重,并用所提方法建立手写数字识别模型的指标体系。其次,提出模型数学属性测评的形式化流程。接着对手写数字识别模型和软件缺陷预测模型的性能进行测试,分析了性能度量指标的有效性和局限性。接着提出第一类鲁棒性度量指标robustness1,并实验验证了指标的有效性。接着在深入分析对抗样本构造原理的基础上,定义了第二类鲁棒性的度量指标Defense,即模型对攻击的防御能力,提出基于对抗样本攻击的第二类鲁棒性测评方法,并实验验证所提指标和测评方法的有效性。接着对各指标进行一致化和无量纲化处理。最后,在理论研究基础上,进行图片分类模型测评系统的设计与实现,并用花卉识别的DNN模型、CNN模型、基于Inception V3的模型进行系统验证。本文重点研究了机器学习模型测评指标体系和模型数学属性的测评技术,所提第一类鲁棒性度量指标能够区分模型对合理性异常数据的处理能力,所提第二类鲁棒性度量指标能够区分模型对对抗样本攻击的抵抗能力。