基于改进的SMOTE和RST的新型混合重取样算法

来源 :第18届全国信息存储技术学术会议 | 被引量 : 0次 | 上传用户：xing123qw

【摘要】

：

　　分类是数据挖掘和知识发现的重要任务之一，非均衡数据是分类中的常见问题。真实世界的分类问题存在很多类别非均衡的情况，非均衡数据集自身的特点(少数类数据的绝对缺乏和

【作者】

：

GUQiong[1]谷琼[2]YUANLei[1]袁磊[2]NINGBin[1]宁彬[2]WUZhao[1]吴钊[2]HUALi[1]华丽[2]LIWen-Xing[1]李文新[2]

【机构】

：

School of Mathematics and Computer Science, Hubei University of Arts and Science, Xiangyang 441053,

【出处】

：

第18届全国信息存储技术学术会议

【发表日期】

：

2012年期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　分类是数据挖掘和知识发现的重要任务之一，非均衡数据是分类中的常见问题。真实世界的分类问题存在很多类别非均衡的情况，非均衡数据集自身的特点(少数类数据的绝对缺乏和相对缺乏、数据碎片、噪声)以及传统分类算法的局限性(不恰当的评价标准和不恰当的归纳偏置)是对非均衡数据集进行准确可靠分类的关键制约因素。非均衡数据的分类问题已成为机器学习和模式识别领域中新的研究热点，是对传统分类算法的重大挑战。针对非均衡数据集分类性能提高的解决方法主要围绕数据层面和算法层面进行。数据层主要是通过去除多数类实例的欠采样或人工合成少数类实例的过采样达到均衡训练集的目的。本文提出一种新的解决非均衡数据集的预处理方式(记为ImSMOTE-RSTR*)，通过改进的SMOTE方法创建新的人工合成少数类实例，并在此基础上应用基于粗糙集理论的子集下近似技术对训练集进行清理，所提出的算法被验证得到较理想的结果。

其他文献

时空轨迹数据的并行采集与存储

　　为解决数值模拟并行轨迹数据的输出与访问共性问题，本文实现了端到端的存储解决方案。提出了扩展的轨迹数据模型，支持复杂并行轨迹数据的表示与组织；提供直接易用的轨迹数据

会议

时空轨迹数据并行采集文件访问模式数据读写接口数据处理过程数据采集技术可扩展

基于MapReduce的网络信息提取方法

　　网络信息提取技术对于人们高速准确的从海量数据中提取所需要的信息变得非常重要，面临海量计算所带来的挑战，提出了基于MapReduce的网络信息提取方法，以淘宝网为数据源，提取

会议

网络信息提取技术信息提取方法海量数据感兴趣程度实验仿真淘宝网数据源

基于语义与SVM的中文实体关系抽取

　　命名实体关系抽取是信息抽取领域中的重要研究课题。本文采用基于特征向量的机器学习算法支持向量机(SVM)进行实体关系抽取实验。在现有的算法中，特征提取方法以基于关键

会议

基于语义SVM中文实体关系抽取特征提取方法向量空间模型实验机器学习算法

基于内存的抽道集程序并行性优化方法研究

　　抽道集是石油地震勘探数据处理过程中的一个重要的中间环节，是典型的I/O密集型应用，它在运行的过程中对I/O子系统产生了很大的压力。为了提高抽道集程序的执行效率，消除I/O

会议

内存抽道集程序并行性优化方法计算节点高性能计算机数据处理过程石油地震勘探

《国家安全法》百问百答r(一)

1.为什么要制定《国家安全法》?rn答:根据《国家安全法》第1条规定,为了维护国家安全,保卫人民民主专政的政权和中国特色社会主义制度,保护人民的根本利益,保障改革开放和社

期刊

基于聚类直方图的数据流聚集查询算法

　　数据流聚集查询有着应用广泛，在计算和存储资源不足条件下，必须考虑构建有效概要数据结构，获取近似聚集查询结果。针对不符合典型分布的电力通信光纤监测数据流，提出一种基于

会议

聚类直方图数据流流聚集聚集查询滑动窗口算法精度流数据

农村信用社不良贷款形成的内在因素及其治理

不良贷款形成的内在因素制度缺位。农村信用社与农行脱钩后,信用社的行业管理和监管部门制定了一些贷款管理内控制度,但是,这些制度缺乏一定的系统性和可操作性。表现在:一是

期刊

农村信用社贷款损失中央银行借款人冒名贷款抵债资产贷款投向社会信用环境人情贷款基层农村

基于RTP/FGS的流媒体传输研究

　　研究了精细粒度可扩展编码技术(FGS)的分层编码原理，提出了基于RTP并结合MPEG-4 FGS编码的自适应视频流传输策略，介绍了RTCP的反馈机制，对往返时间RTT及丢失间隔LD的算法进

会议

RTPFGS细粒度可扩展速率控制算法往返时间改进方案反馈机制发送速率

分布式异构存储系统性能监测技术研究

　　在对分布式异构存储系统性能进行监测中，传统监测方法存在监测对象单一，数据采集粒度不够，对采集数据缺乏有效分析和难以低成本保存有效原始数据的问题。本文研究了分布式存

会议

分布式异构存储系统性能性能监测监测结果分析存储环境监测系统平台监测与分析

主流云存储安全技术研究

　　由于在云计算环境中,在工作量可并行的条件下计算能力是弹性的,并且数据可能存储在不被信任的主机上。为了保障信息的安全性,大多数云计算方案都采用了数据冗余存储的方

会议

基于改进的SMOTE和RST的新型混合重取样算法

其他学术论文