论文部分内容阅读
基于SMOTE算法的随机森林能够很好地处理不平衡数据集的分类,是一种通过对数据进行改造以达到良好分类要求的分类器。但SMOTE算法在处理不平衡数据后,可能会导致不平衡数据集分布的整体变化以及模糊正负类边界。这两个缺陷极易导致平衡后的数据与原始数据集有很大差异,从而使分类结果有提高但仍旧不够理想。K-means算法能够有效地聚类,并达到对数据分布的描述。在此基础上,结合K-means算法与SMOTE算法,利用两者优点,文中提出了一种基于K-means的KM-SMOTE算法,有效地解决了上述两个问题。并用于随