基于不平衡数据集的分类问题研究

来源 :云南财经大学 | 被引量 : 0次 | 上传用户:ununszeto
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的高速发展和互联网平台的普及,使得互联网+各种传统行业可以得到更加深入的融合与应用,利用以往的历史数据可以更好的为各行各业服务,而现实生活当中,我们会发现在众多的数据集当中往往会存在数据不平衡的现象,也就是多数类样本和少数类样本存在着较为严重的不平衡现象,而通常我们所要研究关注的重点在于少数类样本,例如在医疗领域,患癌患者只占到总体样本的少数,而如果忽视或者误判这些少数类样本,那么无论对于个人、家庭还是整个社会而言,产生的损失以及负面影响是远远高于多数类的影响程度。而在以往传统的分类器学习当中,对于二分类问题,往往是将总体的分类准确率作为最重要的评价指标,然而这种评价方法在不平衡数据当中通常会导致分类学习器会向多数类样本进行偏袒,从而提高整体样本的分类准确率,降低了对于少数类的识别率,而少数类样本往往是关注的重点,因而这样的评价指标对于不平衡数据的分类预测往往是不太合理的。本文以俄亥俄州真实的医院患者数据作为原始数据集,总共包括110466个样本数据集以及14个原始特征字段,由于是原始数据集,因而对数据集首先进行缺失数据和异常数据的检验和处理,例如对存在的年龄小于0的异常值进行了剔除处理等一系列处理,然后进行描述性分析,对特征字段进行初步的分析,为接下来的特征衍生做铺垫,然后将原有的14个特征字段衍生为39个特征字段,最后借助随机森林算法和Catboost算法对特征进行重要性排名,留下关键的14个特征字段。而针对存在的不平衡数据集,本文主要从数据的采样、分类算法的选择和评价指标3个方面做了相应的改善与创新,在数据采样方面,本文新提出AK-SMOTE采样方法进行数据采样处理,该方法是将SMOTE过采样技术和ALLKNN欠采样技术相互结合,通过AK-SMOTE采样方法可以一定程度的克服欠采样处理会丢失过多样本信息的不足,同时也避免过采样处理带来过多的噪声影响因素,而且相比于常规单一的欠采样或者过采样方法,AK-SMOTE采样方法具有更好的处理效果,并且可以较大程度的提高对于少数类的识别率。在分类算法选择上,本文新提出LRC分类算法,该算法是将Logistic回归算法、Random Forest算法和Catboost算法当做基模型,将这三个基模型输出的预测值,作为次级学习分类器Logistic回归模型新的特征字段并输出最终的分类预测结果,结果显示LRC分类算法的效果相对于其他模型的处理效果会更加优秀。而在评价指标上,本文将f1度量和Log-loss损失作为最终的评价指标,f1度量是加权调和平均数,该指标客观的平衡少数类的召回率和查准率,而Log-loss损失可以较为准确的评价模型和数据之间的拟合程度,而且数值是越小越好,相比于以往分类器模型的评价指标,将f1度量和Log-loss损失作为最终的评价指标,在处理不平衡数据方面显得更具合理性。本文新提出的AK-SMOTE采样方法对不平衡数据集进行数据采样,采用LRC新的分类算法并用f1度量和Log-loss损失作为最终的评价指标,在处理实际生活中存在的不平衡数据问题,具有一定的现实借鉴意义。
其他文献
开展螳蝎蝽属(Ranatra Fabricius)昆虫的形态学研究不仅有助于深化这一类群的比较形态学研究,探明该属一些疑难物种的分类地位,还有助于推动这一水生半翅目天敌昆虫的生物学及
人民群众日益增长的医疗服务需求与优质医疗资源发展不平衡的矛盾,导致“看病难”问题依然存在。为解决“供给侧”问题,医疗领域引入PPP融资模式,缓解政府财政压力,增加医疗领域投资渠道,提升医疗服务行业的有效供给,助力我国医疗领域卫生机制的进步和完善,缓解“看病难”的问题。然而,医疗领域PPP融资模式是否优于传统政府投资运营模式,医疗领域采用PPP融资模式还存在哪些问题,如何解决这些问题?为此,本文采用
蔬菜中硝酸盐的含量不仅与蔬菜种类、品种、器官、生长期有关,还受土壤肥料、温度、光照、湿度等外界环境条件的影响.如何控制蔬菜硝酸盐含量应引起大家的足够重视,在蔬菜生
<正>今年两会,在世界经济放缓形势下召开。经济质量问题,成为关注焦点。面对经济全球化遭遇波折,多边主义受到冲击,国际金融市场震荡,特别是中美经贸摩擦带来的不利影响,以及