论文部分内容阅读
信息技术的高速发展和互联网平台的普及,使得互联网+各种传统行业可以得到更加深入的融合与应用,利用以往的历史数据可以更好的为各行各业服务,而现实生活当中,我们会发现在众多的数据集当中往往会存在数据不平衡的现象,也就是多数类样本和少数类样本存在着较为严重的不平衡现象,而通常我们所要研究关注的重点在于少数类样本,例如在医疗领域,患癌患者只占到总体样本的少数,而如果忽视或者误判这些少数类样本,那么无论对于个人、家庭还是整个社会而言,产生的损失以及负面影响是远远高于多数类的影响程度。而在以往传统的分类器学习当中,对于二分类问题,往往是将总体的分类准确率作为最重要的评价指标,然而这种评价方法在不平衡数据当中通常会导致分类学习器会向多数类样本进行偏袒,从而提高整体样本的分类准确率,降低了对于少数类的识别率,而少数类样本往往是关注的重点,因而这样的评价指标对于不平衡数据的分类预测往往是不太合理的。本文以俄亥俄州真实的医院患者数据作为原始数据集,总共包括110466个样本数据集以及14个原始特征字段,由于是原始数据集,因而对数据集首先进行缺失数据和异常数据的检验和处理,例如对存在的年龄小于0的异常值进行了剔除处理等一系列处理,然后进行描述性分析,对特征字段进行初步的分析,为接下来的特征衍生做铺垫,然后将原有的14个特征字段衍生为39个特征字段,最后借助随机森林算法和Catboost算法对特征进行重要性排名,留下关键的14个特征字段。而针对存在的不平衡数据集,本文主要从数据的采样、分类算法的选择和评价指标3个方面做了相应的改善与创新,在数据采样方面,本文新提出AK-SMOTE采样方法进行数据采样处理,该方法是将SMOTE过采样技术和ALLKNN欠采样技术相互结合,通过AK-SMOTE采样方法可以一定程度的克服欠采样处理会丢失过多样本信息的不足,同时也避免过采样处理带来过多的噪声影响因素,而且相比于常规单一的欠采样或者过采样方法,AK-SMOTE采样方法具有更好的处理效果,并且可以较大程度的提高对于少数类的识别率。在分类算法选择上,本文新提出LRC分类算法,该算法是将Logistic回归算法、Random Forest算法和Catboost算法当做基模型,将这三个基模型输出的预测值,作为次级学习分类器Logistic回归模型新的特征字段并输出最终的分类预测结果,结果显示LRC分类算法的效果相对于其他模型的处理效果会更加优秀。而在评价指标上,本文将f1度量和Log-loss损失作为最终的评价指标,f1度量是加权调和平均数,该指标客观的平衡少数类的召回率和查准率,而Log-loss损失可以较为准确的评价模型和数据之间的拟合程度,而且数值是越小越好,相比于以往分类器模型的评价指标,将f1度量和Log-loss损失作为最终的评价指标,在处理不平衡数据方面显得更具合理性。本文新提出的AK-SMOTE采样方法对不平衡数据集进行数据采样,采用LRC新的分类算法并用f1度量和Log-loss损失作为最终的评价指标,在处理实际生活中存在的不平衡数据问题,具有一定的现实借鉴意义。