论文部分内容阅读
计算机与信息技术经历了半个世纪的发展,给人类社会带来了巨大的变化与影响。在支配人类社会三大要素(能源、材料和信息)中,信息愈来愈显示出其重要性和支配力,它将人类社会由工业化时代推向信息化时代。随着人类活动范围的扩展,生活节奏的加快,以及技术的进步,人们能以更快速更容易更廉价的方式获取和存储数据,这就使得数据及其信息量以指数方式增长。
然而,人类的各项活动都是基于人类的智慧和知识,即对外部世界的观察和了解,做出正确的判断和决策以及采取正确的行动,而数据仅仅是人们用各种工具和手段观察外部世界所得到的原始材料,它本身没有任何意义。从数据到知识到智慧,需要经过分析加工处理精炼的过程。数据是原材料,它只是描述发生了什么事情,并不能构成决策或行动的可靠基础。通过对数据进行分析找出其中关系,赋予数据以某种意义和关联,这就形成所谓信息。信息虽给出了数据中一些有一定意义的东西,但它往往和人们需要完成的任务没有直接的联系,也还不能作为判断、决策和行动的依据。对信息进行再加工,即进行更深入的归纳分析,方能获得更有用的信息,即知识。而所谓知识,可定义为“信息块中的一组逻辑联系,其关系是通过上下文或过程的贴近度发现的”。从信息中理解其模式,即形成知识。
尤其是数据库技术与应用的日益普及,人们面临着快速扩张的数据海洋,如何有效利用这一丰富数据海洋的宝藏为人类服务,业已成为广大信息技术工作者所重点关注的焦点之一。与日趋成熟的数据管理技术与软件工具相比,人们所依赖的数据分析工具功能,却无法有效地为决策者提供其决策支持所需要的相关知识,从而形成了一种独特的现象“丰富的数据,贫乏的知识”。
为有效解决这一问题,自二十世纪80年代开始,数据挖掘技术逐步发展起来,数据挖掘技术的迅速发展,得益于目前全世界所拥有的巨大数据资源以及对将这些数据资源转换为信息和知识资源的巨大需求,对信息和知识的需求来自各行各业,从商业管理、生产控制、市场分析到工程设计、科学探索等。数据挖掘可以视为是数据管理与分析技术的自然进化产物,它作为一个新兴的多学科交叉应用领域,正在各行各业的决策支持活动扮演着越来越重要的角色。
九十年代中期以来,许多软件开发商,基于数理统计、人工智能、机器学习、神经网络、进化计算和模式识别等多种技术和市场需求,开发了许多数据挖掘与知识发现软件工具,从而形成了近年来软件开发市场的热点。目前数据挖掘工具己开始向智能化整体数据分析解决方案发展,这是从数据到知识演化过程中的一个重要里程碑。
通过已知数据信息构建一个归纳学习模型,用来对未见数据或事例进行预测分类是数据挖掘方法中一个重要的研究方向。本文以数据挖掘算法现状为背景,借鉴了国内外先进技术,通过对多种决策树算法和cost-sensitive分类算法的研究,并在此基础上,实现了一个简单的cost-sensitive的数据挖掘算法,并将算法与其它决策树分类算法进行了比较分析。该算法基本实现了对未见数据或事例进行预测分类。全文共分五大部分,其组织结构如下:
第一章“绪论”,讨论了选题的背景和意义;重点阐述了数据挖掘算法的国内外发展现状以及发展趋势;最后给出了论文的研究内容和组织结构。
第二章“数据挖掘概述”,介绍了数据挖掘基本知识,数据挖掘功能,如何对数据挖掘结果进行评估,以及数据挖掘的研究重点,最后进行了总结。
第三章“代价敏感(cog-sensttive)分类法”,在这部分中我们首先解释为什么说决策树是包含昂贵测试的分类的知识表示的本质形式。然后讨论我们如何计算决策树分类的平均代价以及代价与分类正确性之间的关系。
第四章“cost-sensitive 的数据挖掘算法的设计与实现”,首先介绍了算法的流程,然后阐述了算法的设计方案以及实现方法,给出了运行的结果,并对决策树与Cost-Sensitive分类算法进行了比较,最后预测了算法的未来发展方向。
第五章“总结与展望”,对论文进行总结,并指出要开展的后续工作,以及算法存在的不足以及需要改进的地方。