论文部分内容阅读
数字经济时代,互联网、大数据技术与制造业的融合发展成为制造业现代化的典型特征。通过机器学习对工业大数据进行分析、处理,进而提高生产效率,改进产品质量是提高企业核心竞争力的重要途径。但工业大数据是典型的不平衡数据集。以产品质量数据为例,不合格品占比极低,但是错分为合格品产生的代价极高。因此,通过分类算法提高正类样本的分类精度进而减少由于错分导致的重大损失具有重要的研究价值。
机器学习中标准的分类算法虽然能够深入挖掘数据特征之间的关系,但是其数据分类追求的是整体分类最优。当数据集呈现明显的非均衡分布特征时,标准分类器算法便呈现极大的局限性。集成学习是从算法层面解决不均衡数据分类问题的一种重要方法,通过训练出多个具有差异性的基分类器,然后通过投票、加权等策略将其结合起来,以获得更优秀的模型泛化能力。基于此,本文将集成学习用于不平衡数据的分类研究。
本文首先从机器学习视角对产品质量判别的问题进行分析,并分析了其背景与意义。对不平衡数据分类的国内外研究现状进行了梳理;接着对数据不平衡的原理和影响进行深入分析和探讨,研究了已有的用于不平衡数据的常用分类方法,并重点对基于Boosting集成学习方法和代价敏感学习的原理及优缺点进行分析。本文结合样本权重更新函数修正与性能度量选择,基于德国Bosch公司家电产品的质量数据,利用AdaBoost框架建模,研究不同处理方式对分类效果的影响。首先进行目标变量探索性分析,分别从样本和特征两个维度分析并处理缺失值:然后进行数据清洗统一格式,对不同类型的特征采用不同的编码方式,同时进行数值特征离散化处理、类别特征向量化等特征工程。最后,针对产品质量判别中存在的数据不平衡问题,本文将代价敏感学习的思想迁移到AdaBoost集成学习框架中用于优化数据的不平衡学习,调整不同类样本在迭代中的重要程度,得到基于样本权重更新函数修正的模型。进行对比实验,以AUC、漏检率作为评价指标,通过十折交叉验证的方式,使用三种不同的基本分类器分别构建AdaBoost集成学习与CS-AdaBoost集成学习模型,并进行对比分析,研究表明:相对于单一分类器和AdaBoost集成学习,引入代价敏感的CS-AdaBoost模型在产品质量判别的准确性与稳定性方面都具有明显优势,在产品质量判别中具有较好的适用性。
机器学习中标准的分类算法虽然能够深入挖掘数据特征之间的关系,但是其数据分类追求的是整体分类最优。当数据集呈现明显的非均衡分布特征时,标准分类器算法便呈现极大的局限性。集成学习是从算法层面解决不均衡数据分类问题的一种重要方法,通过训练出多个具有差异性的基分类器,然后通过投票、加权等策略将其结合起来,以获得更优秀的模型泛化能力。基于此,本文将集成学习用于不平衡数据的分类研究。
本文首先从机器学习视角对产品质量判别的问题进行分析,并分析了其背景与意义。对不平衡数据分类的国内外研究现状进行了梳理;接着对数据不平衡的原理和影响进行深入分析和探讨,研究了已有的用于不平衡数据的常用分类方法,并重点对基于Boosting集成学习方法和代价敏感学习的原理及优缺点进行分析。本文结合样本权重更新函数修正与性能度量选择,基于德国Bosch公司家电产品的质量数据,利用AdaBoost框架建模,研究不同处理方式对分类效果的影响。首先进行目标变量探索性分析,分别从样本和特征两个维度分析并处理缺失值:然后进行数据清洗统一格式,对不同类型的特征采用不同的编码方式,同时进行数值特征离散化处理、类别特征向量化等特征工程。最后,针对产品质量判别中存在的数据不平衡问题,本文将代价敏感学习的思想迁移到AdaBoost集成学习框架中用于优化数据的不平衡学习,调整不同类样本在迭代中的重要程度,得到基于样本权重更新函数修正的模型。进行对比实验,以AUC、漏检率作为评价指标,通过十折交叉验证的方式,使用三种不同的基本分类器分别构建AdaBoost集成学习与CS-AdaBoost集成学习模型,并进行对比分析,研究表明:相对于单一分类器和AdaBoost集成学习,引入代价敏感的CS-AdaBoost模型在产品质量判别的准确性与稳定性方面都具有明显优势,在产品质量判别中具有较好的适用性。