基于cost-sensitive的数据挖掘算法研究

来源 :中国地质大学(武汉) | 被引量 : 0次 | 上传用户:zhhq516686
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机与信息技术经历了半个世纪的发展,给人类社会带来了巨大的变化与影响。在支配人类社会三大要素(能源、材料和信息)中,信息愈来愈显示出其重要性和支配力,它将人类社会由工业化时代推向信息化时代。随着人类活动范围的扩展,生活节奏的加快,以及技术的进步,人们能以更快速更容易更廉价的方式获取和存储数据,这就使得数据及其信息量以指数方式增长。 然而,人类的各项活动都是基于人类的智慧和知识,即对外部世界的观察和了解,做出正确的判断和决策以及采取正确的行动,而数据仅仅是人们用各种工具和手段观察外部世界所得到的原始材料,它本身没有任何意义。从数据到知识到智慧,需要经过分析加工处理精炼的过程。数据是原材料,它只是描述发生了什么事情,并不能构成决策或行动的可靠基础。通过对数据进行分析找出其中关系,赋予数据以某种意义和关联,这就形成所谓信息。信息虽给出了数据中一些有一定意义的东西,但它往往和人们需要完成的任务没有直接的联系,也还不能作为判断、决策和行动的依据。对信息进行再加工,即进行更深入的归纳分析,方能获得更有用的信息,即知识。而所谓知识,可定义为“信息块中的一组逻辑联系,其关系是通过上下文或过程的贴近度发现的”。从信息中理解其模式,即形成知识。 尤其是数据库技术与应用的日益普及,人们面临着快速扩张的数据海洋,如何有效利用这一丰富数据海洋的宝藏为人类服务,业已成为广大信息技术工作者所重点关注的焦点之一。与日趋成熟的数据管理技术与软件工具相比,人们所依赖的数据分析工具功能,却无法有效地为决策者提供其决策支持所需要的相关知识,从而形成了一种独特的现象“丰富的数据,贫乏的知识”。 为有效解决这一问题,自二十世纪80年代开始,数据挖掘技术逐步发展起来,数据挖掘技术的迅速发展,得益于目前全世界所拥有的巨大数据资源以及对将这些数据资源转换为信息和知识资源的巨大需求,对信息和知识的需求来自各行各业,从商业管理、生产控制、市场分析到工程设计、科学探索等。数据挖掘可以视为是数据管理与分析技术的自然进化产物,它作为一个新兴的多学科交叉应用领域,正在各行各业的决策支持活动扮演着越来越重要的角色。 九十年代中期以来,许多软件开发商,基于数理统计、人工智能、机器学习、神经网络、进化计算和模式识别等多种技术和市场需求,开发了许多数据挖掘与知识发现软件工具,从而形成了近年来软件开发市场的热点。目前数据挖掘工具己开始向智能化整体数据分析解决方案发展,这是从数据到知识演化过程中的一个重要里程碑。 通过已知数据信息构建一个归纳学习模型,用来对未见数据或事例进行预测分类是数据挖掘方法中一个重要的研究方向。本文以数据挖掘算法现状为背景,借鉴了国内外先进技术,通过对多种决策树算法和cost-sensitive分类算法的研究,并在此基础上,实现了一个简单的cost-sensitive的数据挖掘算法,并将算法与其它决策树分类算法进行了比较分析。该算法基本实现了对未见数据或事例进行预测分类。全文共分五大部分,其组织结构如下: 第一章“绪论”,讨论了选题的背景和意义;重点阐述了数据挖掘算法的国内外发展现状以及发展趋势;最后给出了论文的研究内容和组织结构。 第二章“数据挖掘概述”,介绍了数据挖掘基本知识,数据挖掘功能,如何对数据挖掘结果进行评估,以及数据挖掘的研究重点,最后进行了总结。 第三章“代价敏感(cog-sensttive)分类法”,在这部分中我们首先解释为什么说决策树是包含昂贵测试的分类的知识表示的本质形式。然后讨论我们如何计算决策树分类的平均代价以及代价与分类正确性之间的关系。 第四章“cost-sensitive 的数据挖掘算法的设计与实现”,首先介绍了算法的流程,然后阐述了算法的设计方案以及实现方法,给出了运行的结果,并对决策树与Cost-Sensitive分类算法进行了比较,最后预测了算法的未来发展方向。 第五章“总结与展望”,对论文进行总结,并指出要开展的后续工作,以及算法存在的不足以及需要改进的地方。
其他文献
近年来,国内网络安全问题逐渐从病毒、蠕虫转向间谍软件(或称流氓软件)和恶意网站。间谍软件弹出广告、收集用户敏感信息、降低用户系统可用性和可靠性,恶意网页在用户未察觉的
目前,信息化、网络化和全球化已成为各行业领域的发展趋势。在各个领域都有对各种信息资料实现现代化管理和信息共享的迫切需要,信息存储管理系统应运而生。医院作为人们日常生
干涉合成孔径雷达(InSAR)技术是目前遥感成像领域的一个热点。它具有覆盖面积大,空间分辨率高,高程精度高的优点,并且可以全天时、全天候的工作,是获取三维数字高程模型(DEMs
随着网络技术特别是Internet技术的迅速发展与普及,从根本上改变了信息产业的组织结构、信息产品的开发方法和信息技术的应用模式。基于Internet的企业内部网络Intranet技术
对象持久化技术屏蔽各数据库管理系统的差异性,把数据访问作为相对独立的持久化层,用以封装数据访问细节,为业务逻辑层提供面向对象的API,可以极大地提高应用系统的开发效率和应
工作流技术是构建现代办公自动化应用系统的一项关键技术,它能够实现企业业务过程建模,过程管理与集成,最终实现业务过程自动化。地理信息系统(GIS)技术是用来描述和处理空间数
近些年来,随着可变数据印刷技术的发展和邮政新业务领域的积极开拓,越来越多的直邮印刷品(邮送广告、商业信函等)通过邮政渠道走入千家万户。同时,作为市场宣传推广的密切客户关
业务管理系统作为视频会议系统的核心组成部分,随着视频会议系统中的业务种类更加丰富,业务逻辑更加复杂等情况,高效的业务管理对整个视频会议系统的实现起着至关重要的作用
随着互联网与数据库技术的飞速发展,很多企业和政府组织都建立了管理信息系统,积累的数据也越来越多。人们对信息技术的需求从单纯的事务处理逐渐转向更为宽广的领域。以知识发
随着ARM处理器计算能力的提高,该类型的处理器在嵌入式领域的应用越来越广泛的同时,也得到了数控系统的青睐。比如:德国ECKELMANN公司的E.ENC55和广州数控的GSK980TD系列车床