基于改进的SMOTE和RST的新型混合重取样算法

来源 :第18届全国信息存储技术学术会议 | 被引量 : 0次 | 上传用户:xing123qw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  分类是数据挖掘和知识发现的重要任务之一,非均衡数据是分类中的常见问题。真实世界的分类问题存在很多类别非均衡的情况,非均衡数据集自身的特点(少数类数据的绝对缺乏和相对缺乏、数据碎片、噪声)以及传统分类算法的局限性(不恰当的评价标准和不恰当的归纳偏置)是对非均衡数据集进行准确可靠分类的关键制约因素。非均衡数据的分类问题已成为机器学习和模式识别领域中新的研究热点,是对传统分类算法的重大挑战。针对非均衡数据集分类性能提高的解决方法主要围绕数据层面和算法层面进行。数据层主要是通过去除多数类实例的欠采样或人工合成少数类实例的过采样达到均衡训练集的目的。本文提出一种新的解决非均衡数据集的预处理方式(记为ImSMOTE-RSTR*),通过改进的SMOTE方法创建新的人工合成少数类实例,并在此基础上应用基于粗糙集理论的子集下近似技术对训练集进行清理,所提出的算法被验证得到较理想的结果。
其他文献
  为解决数值模拟并行轨迹数据的输出与访问共性问题,本文实现了端到端的存储解决方案。提出了扩展的轨迹数据模型,支持复杂并行轨迹数据的表示与组织;提供直接易用的轨迹数据
  网络信息提取技术对于人们高速准确的从海量数据中提取所需要的信息变得非常重要,面临海量计算所带来的挑战,提出了基于MapReduce的网络信息提取方法,以淘宝网为数据源,提取
  命名实体关系抽取是信息抽取领域中的重要研究课题。本文采用基于特征向量的机器学习算法支持向量机(SVM)进行实体关系抽取实验。在现有的算法中,特征提取方法以基于关键
  抽道集是石油地震勘探数据处理过程中的一个重要的中间环节,是典型的I/O密集型应用,它在运行的过程中对I/O子系统产生了很大的压力。为了提高抽道集程序的执行效率,消除I/O
1.为什么要制定《国家安全法》?rn答:根据《国家安全法》第1条规定,为了维护国家安全,保卫人民民主专政的政权和中国特色社会主义制度,保护人民的根本利益,保障改革开放和社
期刊
  数据流聚集查询有着应用广泛,在计算和存储资源不足条件下,必须考虑构建有效概要数据结构,获取近似聚集查询结果。针对不符合典型分布的电力通信光纤监测数据流,提出一种基于
不良贷款形成的内在因素制度缺位。农村信用社与农行脱钩后,信用社的行业管理和监管部门制定了一些贷款管理内控制度,但是,这些制度缺乏一定的系统性和可操作性。表现在:一是
  研究了精细粒度可扩展编码技术(FGS)的分层编码原理,提出了基于RTP并结合MPEG-4 FGS编码的自适应视频流传输策略,介绍了RTCP的反馈机制,对往返时间RTT及丢失间隔LD的算法进
  在对分布式异构存储系统性能进行监测中,传统监测方法存在监测对象单一,数据采集粒度不够,对采集数据缺乏有效分析和难以低成本保存有效原始数据的问题。本文研究了分布式存
  由于在云计算环境中,在工作量可并行的条件下计算能力是弹性的,并且数据可能存储在不被信任的主机上。为了保障信息的安全性,大多数云计算方案都采用了数据冗余存储的方
会议