基于集成学习的不平衡数据分类算法在产品质量判别中的应用

来源 :中国计量大学 | 被引量 : 0次 | 上传用户:hanyouzhu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数字经济时代,互联网、大数据技术与制造业的融合发展成为制造业现代化的典型特征。通过机器学习对工业大数据进行分析、处理,进而提高生产效率,改进产品质量是提高企业核心竞争力的重要途径。但工业大数据是典型的不平衡数据集。以产品质量数据为例,不合格品占比极低,但是错分为合格品产生的代价极高。因此,通过分类算法提高正类样本的分类精度进而减少由于错分导致的重大损失具有重要的研究价值。
  机器学习中标准的分类算法虽然能够深入挖掘数据特征之间的关系,但是其数据分类追求的是整体分类最优。当数据集呈现明显的非均衡分布特征时,标准分类器算法便呈现极大的局限性。集成学习是从算法层面解决不均衡数据分类问题的一种重要方法,通过训练出多个具有差异性的基分类器,然后通过投票、加权等策略将其结合起来,以获得更优秀的模型泛化能力。基于此,本文将集成学习用于不平衡数据的分类研究。
  本文首先从机器学习视角对产品质量判别的问题进行分析,并分析了其背景与意义。对不平衡数据分类的国内外研究现状进行了梳理;接着对数据不平衡的原理和影响进行深入分析和探讨,研究了已有的用于不平衡数据的常用分类方法,并重点对基于Boosting集成学习方法和代价敏感学习的原理及优缺点进行分析。本文结合样本权重更新函数修正与性能度量选择,基于德国Bosch公司家电产品的质量数据,利用AdaBoost框架建模,研究不同处理方式对分类效果的影响。首先进行目标变量探索性分析,分别从样本和特征两个维度分析并处理缺失值:然后进行数据清洗统一格式,对不同类型的特征采用不同的编码方式,同时进行数值特征离散化处理、类别特征向量化等特征工程。最后,针对产品质量判别中存在的数据不平衡问题,本文将代价敏感学习的思想迁移到AdaBoost集成学习框架中用于优化数据的不平衡学习,调整不同类样本在迭代中的重要程度,得到基于样本权重更新函数修正的模型。进行对比实验,以AUC、漏检率作为评价指标,通过十折交叉验证的方式,使用三种不同的基本分类器分别构建AdaBoost集成学习与CS-AdaBoost集成学习模型,并进行对比分析,研究表明:相对于单一分类器和AdaBoost集成学习,引入代价敏感的CS-AdaBoost模型在产品质量判别的准确性与稳定性方面都具有明显优势,在产品质量判别中具有较好的适用性。
其他文献
溃疡性结肠炎(Ulcerative Colitis,UC)是一种慢性非特异性炎症性肠病,部分溃疡性结肠炎患者疾病反复发作到最后可发展为结肠癌[1]。近年来,UC的发病率正处于上升期。传统认为UC的高发地区是欧洲和北美,但近年来亚洲UC发病率明显增加,尤其是我国,UC的发病率在10年间增加了 3.08倍[2]。其主要临床表现为腹痛、腹泻、黏液血便等,或伴有体重减轻、呕吐等症状[3]。目前,临床上治疗
骨关节炎(osteoarthritis,OA)是一种严重影响患者生活质量的关节退行性疾病,主要症状表现为由多种因素引起的关节软骨、软骨下骨、滑膜病变导致的关节疼痛、肿胀及僵直,累及部位包括膝、髋、踝、手等多个关节,长期、缠绵的病痛给患者家庭和社会造成了巨大的经济负担。黄荆子为马鞭草科牡荆属植物黄荆Vitex negundo L.的干燥成熟果实,具有祛风止痛、舒经活络的功效,在民间常用于治疗类风湿性
学位
中枢神经系统白血病(central nervous system leukemia,CNSL)是白血病细胞浸润脑和脊髓的总称。CNSL是白血病的一种严重并发症,常常导致治疗失败或预后不良。在急性淋巴细胞白血病(acute lymphoblastic leukemia,ALL)中,CNSL的发病率超过25%且CNSL是导致ALL完全缓解后复发的主要原因。目前,CNSL治疗存在三大难点:(1)发病机制
中药栀子(Gardeniae Fructus)为茜草科植物栀子(Gardenia jasminoides Ellis)的干燥成熟果实,具有泻火除烦,清热利湿,凉血解毒,消肿止痛的功效。近年来越来越多的文献报导栀子及其主要活性成分京尼平苷(又称栀子苷)具有肝毒性,长期或大量使用可引起肝损伤。由于中草药多成分、多靶点的特性,其毒理机制研究较为困难,早期关于栀子肝毒性的研究主要停留于描述性研究层面,未能
学位
近四十年来,侵袭性真菌感染(IFIs)的发病率逐年增长,并且严重威胁着人类健康。而现有药物种类不足,且真菌耐药现象日益严重。因此,开发新结构,新机制的抗真菌药物具有重要现实意义。  本论文包含两个部分:首先,设计合成了含有苯并三嗪酮、异喹啉酮以及酚酞酮侧链的阿巴康唑类似物,以期发现高活性、抗菌谱广、低毒且具有体内药效的新型三唑类抗真菌先导化合物。其次,基于本课题组前期报道的新型小檗碱类协同抗真菌先
目的:针对阿苯达唑原料内的杂质进行高效液相色谱.离子阱质谱联用仪(LC--Orbitrap)的分析鉴定,并使用ADMET Predictor8.5软件对其进行全面毒理参数的评测,获得其不良反应情况的剖析及预估;采用反相高效液相色谱仪(RP-HPIC)测定阿苯达唑原料中的杂质及破坏实验的杂质情况,充分了解杂质的分布及来源情况;采用顶空-GC测定阿苯达唑原料中的残留溶剂,了解工艺过程中残留溶剂是否符合
川贝母(Fritillariae Cirrhosae Bulbus)是一种多基原植物,来源于百合科植物川贝母(Fritillaria cirrhosa)、甘肃贝母(F.przewalskii)、梭砂贝母(F.delavayi)、暗紫贝母(F.unibracteata)、太白贝母(F.taipaiensis)和瓦布贝母(F.unibracteata var.wabuensi)的干燥鳞茎,是我国重要的
学位
格列吡嗪(Glipizide)为第二代磺酰脲类降糖药代表性药物,相较于第一代具有降糖效果好、作用时间长、副作用小等优点,临床上主要用于治疗Ⅱ型糖尿病。我国作为一个仿制药生产大国,当前药品市场中拥有批准文号的格列吡嗪仿制片有近60个,其中截止2020年底提出一致性评价申报或已完成仅4家企业,故对格列吡嗪片进行一致性评价研究具有重要的科研及社会意义。生物等效性试验(BE)是一致性评价的主要手段,现阶段
学位
一个理想的眼部药物释放体系,应该以滴眼液的形式给药,不引起糊视和眼部刺激,而且有较长的眼部滞留时间和一定的缓释作用.基于这种思想,该论文研究了一种滴注性凝胶(droppablege),它以液体形式滴入眼睛后发生相转变而形成具有一定粘弹性的凝胶,属于在位形成凝胶释放体系(insitu-forminggeldeliverysystem).该滴注性凝胶以因pH改变而胶凝的高分子聚合物卡波姆(Carbop
学位
该文就NIRDRS在药物分析领域内几个方面的应用进行了研究.第一部分:影响NIRDRS测定的因素考察.该部分考察了影响NIRDRS测定的因素:采样因素和仪器因素,具体为药物颗粒大小、堆密度、厚度、装样方式以及分辨率等.第二部分:定性鉴别.该文采用NIRDRS,首次根据峰形的不同,并结合一、二阶导数光谱对二十种氨 基酸原料进行无损鉴别,样品不需处理,直接测定,方法简便、直观、快速,适合工业生产过程