基于EBP的异常数据检测研究及其应用

来源 :上海财经大学 | 被引量 : 0次 | 上传用户:yujia599
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,数据采集和存储技术的进步使人们获得数据的能力急剧提高,并且已经拥有的大量数据还在不断呈指数级的速度增长。更重要得是,隐藏在这些数据之后的信息不仅是关于这些数据整体特征的描述,而且还是预测其所反映的事物未来发展趋势得基础。显而易见,这些信息在决策制定过程中具有极其重要的参考价值。因此,数据成为了一种信息时代的关键性资源。如同所有的资源一样,数据的质量问题,尤其是异常数据的提出及研究,对数据分析的结果产生越来越重要的影响。 异常数据,是数据集中与众不同的数据,不符合通常的数据模式,其产生机制往往与大多数据的不同。异常数据可能是采集或记录过程中引入的噪音数据,这种异常数据会误导分析,因而应该被剔除。另一方面,异常数据也可能是真实的异常情况,隐含对应用十分有意义的未知知识,这种异常数据需要保留并加以分析。异常数据研究,或称异常数据挖掘,包括异常数据检测和异常数据解释两个部分。 当前国内外对异常数据的研究主要集中于异常数据检测这一过程,并针对数据的特定情况开发出了多种异常数据检测方法,如基于统计模型的异常数据检测方法、基于距离的异常数据检测方法、基于密度的异常数据检测方法和针对高维数据集的异常数据检测方法等。本文在全面综述目前常用异常数据检测方法的基础上,提出了这些检测方法存在的许多严重弊端,指出了在解决现实问题时这些方法的局限性,并且指出这些异常数据检测方法缺乏对所发现异常数据的解释功能,而这一功能在绝大多数应用中都是很重要的。本文在分析决策树剪枝过程之后,发现有效的剪枝过程可以发现数据集中某些异常情况。因此这可以为异常数据检测提供一个基础。在此基础之上,本文提出了一种新的异常数据检测方法——基于EBP的异常数据检测方法(an Outlier Detection Method Based on EBP),有效的解决了高维环境下如何检测并解释分类型数据异常,特别是类异常数据的问题。该方法通过使用C4.5决策树构造算法的剪枝策略,即Error Based Pruning,对数据对象进行初步筛选找到最有可能存在异常的数据子集,然后通过对该数据子集的分析,最终得到最有可能的异常数据。本文提出的这种检测方法在一定程度上克服了以往大多数异常数据检测方法的缺点,通过实验验证该方法是行之有效的。并且由于决策树有着对数据的天然的解释能力,所以基于EBP的异常数据检测方法为解释异常数据提供了一个简单有效的解决方案。 在两个不同行业领域中的实际应用也说明了该模型的实用价值,同时为其可以拓展到更多的领域提供宝贵的实践经验。
其他文献
提起信托产品,对于普通投资者来说,基本上是敬而远之,这倒不是因为普通投资者不喜欢得到信托产品的高收益,实在是信托理财产品的投资门槛太高了。信托理财产品的高投资门槛,
本文在综合前人研究成果的基础上将人力资源规划与基于时间竞争理论相结合,针对当前竞争的主题——更快更好地对顾客做出反应,基于时间竞争的战略导向——即时满足顾客需求战略
本文从法律责任的基本理论出发,结合我国建设领域的法律法规和工程监理服务的具体特点,系统、完整地分析监理的法律责任,并以此为基础,归纳了监理可能面临的责任风险,运用问卷调查
国家助学贷款是利用金融手段完善普通高校资助政策体系,加大对普通高校经济困难学生资助力度的一项重大措施。但助学贷款毕竟是一项信用贷款,它的商业性质不容置疑。由于我国助
事业单位改制是我国改革进程中的一项重要工作,也是改革中的一个热点问题,其成功与否关系到社会经济的发展。本文分析了我国事业单位改革的现状及存在的问题,结合“第三部门”等
学位
很多人买东西有价格强迫症,我就有。某天晚上突然想喝牛奶了,网上挑了个澳洲牌子,6盒1升装的卖101元,然后我就开始了网络省钱强迫症之旅。我先用一淘网搜1号店这个牛奶的链接,搜到后点击跳转回1号店界面再购买,这样会返利订单金额的2.5%;再用支付宝金账户登录1号店,送满100减10元优惠券;支付时用手机支付电子平台,支付金额的80%可以打95折。最后实际付款大概是84.5元,省了16.5元,相当于总
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
随着港口多式联运的出现,港口和腹地区域的关系日益密切,而现代港口更强调港口供应链中各环节间的无缝连接,这对港口集疏运系统提出了更高的要求。集疏运系统作为港口—腹地
高校后勤社会化在教育部、各级政府和高校领导的关注、支持下,取得了很大进步。但是由于高校后勤社会化是一项全新的、复杂的社会系统工程,是在没有成熟经验可以借鉴的基础上进
随着网络技术与新媒体技术的发展,消费者日益被纷繁复杂的市场信息所包围。由于在一段时间内消费者处理信息的能力是有限的,为了尽力保持此种能力不会耗尽,消费者不会仔细的处理