论文部分内容阅读
随着数据库技术的不断发展及数据库管理系统的广泛应用,数据库中存储的数据量急剧增大,在大量的数据背后隐藏着许多重要的信息。数据挖掘就是利用分析工具从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取出隐含在其中、事先未知、但又潜在有用的信息和知识的过程,建立数据间关系模型,并用其做出预测。近年来,数据挖掘受到了国内外的普遍关注,己经成为信息系统和计算机科学领域研究中最活跃的前沿领域。数据挖掘已广泛应用于生物医学、金融、零售业、电信业等领域,并产生了巨大的效益。
分类是数据挖掘中的一种非常重要的方法。它是在已有数据的基础上学会一个分类函数或构造出一个分类模型(即通常说的分类器)。该函数或模型能够把数据库中的数据项映射到给定类别中的某一个,从而可以应用于数据预测。目前,分类已广泛应用于许多领域,如医疗诊断、天气预测、信用证实、顾客区分、欺诈甄别。
现已有多种分类的方法,其中决策树分类法在海量数据环境中应用最为广泛。其原因如下:1、决策树分类的直观的表示方法较容易转化为标准的数据库查询。2、决策树分类归纳的方法行之有效,尤其适合大型数据集。3、决策树在分类过程中,除了数据集中己包括的信息外,不再需要额外的信息。4、决策树分类模型的精确度较高。
决策树分类器是一个类似流程图的树型结构,其中树的每个内部结点代表对一个属性(取值)的测试,其分支就代表测试的每个结果,而树的每个叶结点就代表一个类别。决策树很容易用IF-THEN规则进行表达。决策树模型是数据挖掘中最常用的一种方法。它能够直接体现数据的特点,便于理解,具有较好的分类预测能力,并能方便提取决策规则。决策树的生成过程也就是知识发现的过程,决策树模型的复杂度和预测精度决定了决策树的好坏。决策树是根据启发规则生成的,常见的决策树生成算法有基于信息论的ID3、C4.5算法以及基于最小GINI指标的CART、SILQ、PUBLIC方法。
演化计算中最重要的分支是遗传算法。遗传程序设计是遗传算法的一个变体。遗传算法和遗传程序设计这两个算法虽然都遵循自然界优胜劣汰的基本原理,但是它们最初在工程应用领域具有不同的功能:遗传算法主要用于函数优化,而遗传程序设计则主要用于建模。一般而言,这两者都要优于传统的统计学方法。今年来,演化计算以及成功应用于数据挖掘,尤其是分类规则挖掘。演化计算已成为数据挖掘的一种不可或缺的工具。 基因表达式编程是C.Ferreira发明的一种新的遗传算法。基因表达式编程结合了遗传算法和遗传程序设计的优点,克服了它们的缺点,在数学建模方面取得了非常好的效果。正因为其优点和良好的效果,使得基因表达式编程在并不漫长的时间里引起了演化计算领域的广泛关注甚至争议。本文简要介绍了基因表达式编程的基本技术,分析了其具有较高效率的根本原因在于其编码方式所具有的独特优势。
本文以基因表达式编程和决策树作为主要对象,研究如何利用先进的基因表达式编程技术来构造决策树,以及这种决策树在实际分类中效果如何。本文在第一章首先介绍了论文的选题及其研究意义、选题的国内外研究现状、主要的研究内容。然后在第二章中概述了数据挖掘和分类技术,内容包括分类的主要方法、分类的比较和评估以及分类技术中存在的若干问题。在第三章中首先介绍了有关决策树的基本概念,然后介绍了基本ID3决策树算法,以及针对决策树算法的有关讨论。第四章概述了当前两种主要的基因表达式编程分类器,以及它们各自的特点。第五章是本文的主要工作,对现有的基因表达式编程分类器的优劣进行分析,提出了一种基于基因表达式编程技术的新的决策树算法,并通过试验结果说明了该方法与现有的基因表达式编程分类器方法相比的优势。在第六章结论中,总结了论文的主要工作和后续工作。