基于基因表达式编程的决策树研究

来源 :中国地质大学(武汉) | 被引量 : 0次 | 上传用户:bainiao528
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据库技术的不断发展及数据库管理系统的广泛应用,数据库中存储的数据量急剧增大,在大量的数据背后隐藏着许多重要的信息。数据挖掘就是利用分析工具从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取出隐含在其中、事先未知、但又潜在有用的信息和知识的过程,建立数据间关系模型,并用其做出预测。近年来,数据挖掘受到了国内外的普遍关注,己经成为信息系统和计算机科学领域研究中最活跃的前沿领域。数据挖掘已广泛应用于生物医学、金融、零售业、电信业等领域,并产生了巨大的效益。 分类是数据挖掘中的一种非常重要的方法。它是在已有数据的基础上学会一个分类函数或构造出一个分类模型(即通常说的分类器)。该函数或模型能够把数据库中的数据项映射到给定类别中的某一个,从而可以应用于数据预测。目前,分类已广泛应用于许多领域,如医疗诊断、天气预测、信用证实、顾客区分、欺诈甄别。 现已有多种分类的方法,其中决策树分类法在海量数据环境中应用最为广泛。其原因如下:1、决策树分类的直观的表示方法较容易转化为标准的数据库查询。2、决策树分类归纳的方法行之有效,尤其适合大型数据集。3、决策树在分类过程中,除了数据集中己包括的信息外,不再需要额外的信息。4、决策树分类模型的精确度较高。 决策树分类器是一个类似流程图的树型结构,其中树的每个内部结点代表对一个属性(取值)的测试,其分支就代表测试的每个结果,而树的每个叶结点就代表一个类别。决策树很容易用IF-THEN规则进行表达。决策树模型是数据挖掘中最常用的一种方法。它能够直接体现数据的特点,便于理解,具有较好的分类预测能力,并能方便提取决策规则。决策树的生成过程也就是知识发现的过程,决策树模型的复杂度和预测精度决定了决策树的好坏。决策树是根据启发规则生成的,常见的决策树生成算法有基于信息论的ID3、C4.5算法以及基于最小GINI指标的CART、SILQ、PUBLIC方法。 演化计算中最重要的分支是遗传算法。遗传程序设计是遗传算法的一个变体。遗传算法和遗传程序设计这两个算法虽然都遵循自然界优胜劣汰的基本原理,但是它们最初在工程应用领域具有不同的功能:遗传算法主要用于函数优化,而遗传程序设计则主要用于建模。一般而言,这两者都要优于传统的统计学方法。今年来,演化计算以及成功应用于数据挖掘,尤其是分类规则挖掘。演化计算已成为数据挖掘的一种不可或缺的工具。 基因表达式编程是C.Ferreira发明的一种新的遗传算法。基因表达式编程结合了遗传算法和遗传程序设计的优点,克服了它们的缺点,在数学建模方面取得了非常好的效果。正因为其优点和良好的效果,使得基因表达式编程在并不漫长的时间里引起了演化计算领域的广泛关注甚至争议。本文简要介绍了基因表达式编程的基本技术,分析了其具有较高效率的根本原因在于其编码方式所具有的独特优势。 本文以基因表达式编程和决策树作为主要对象,研究如何利用先进的基因表达式编程技术来构造决策树,以及这种决策树在实际分类中效果如何。本文在第一章首先介绍了论文的选题及其研究意义、选题的国内外研究现状、主要的研究内容。然后在第二章中概述了数据挖掘和分类技术,内容包括分类的主要方法、分类的比较和评估以及分类技术中存在的若干问题。在第三章中首先介绍了有关决策树的基本概念,然后介绍了基本ID3决策树算法,以及针对决策树算法的有关讨论。第四章概述了当前两种主要的基因表达式编程分类器,以及它们各自的特点。第五章是本文的主要工作,对现有的基因表达式编程分类器的优劣进行分析,提出了一种基于基因表达式编程技术的新的决策树算法,并通过试验结果说明了该方法与现有的基因表达式编程分类器方法相比的优势。在第六章结论中,总结了论文的主要工作和后续工作。
其他文献
计算机图形技术正越来越广泛地应用在各种领域,在具体应用中,每一幅图形都由成百上千条直线和曲线构成,这样对于每一条直线或曲线的处理速度和质量就极大地影响着整幅图形的处理
当今世界充满了激烈竞争,为了扩大更大市场,企业必须从过去单纯提高产品的质量转变到提高服务质量,对客户信息进行多方面分析,以便做出决策,最大限度的保留客户,这就是客户关系管理
资源搜索是随着世界范围内Internet的发展而产生的。但是,随着Internet以及WWW技术的迅猛发展,导致其所蕴涵的信息量急剧的膨胀。面对如此庞大的信息量,目前普遍采用的基于中央
以信息化、数字化、网络化为特点的社会的发展对国家以及社会生活安全性提出了全新的要求,在这种环境下,传统的安全技术呈现出无法解决的重大缺陷。而生物特征认证技术是解决
Internet技术的飞速发展和万维网在世界范围内的普及,使Web中包含的信息以惊人的速度增加着,Web成为了当代社会重要的信息来源。由于Web上信息的海量性,使得以往靠人工采集的方
软件安全漏洞通常是由在软件设计过程中的软件错误引入的,随着软件系统的复杂程度和规模的提高,软件漏洞也越来越多。因此软件错误的分析方法及工具研究对于软件安全漏洞发现具
随着社会的发展和计算机科学技术的进步,计算机及软件的应用越来越广泛。作为计算机的灵魂,软件在其中起着举足轻重的作用。软件故障往往会导致严重的后果,因此如何确保软件质量
无线传感器网络(Wireless sensor networks,WSN)是由若干具备无线通信能力的传感器节点按照协议自组成的分布式网络。无线传感器网络技术一门新兴综合技术,它在环境监测,国防军
公开密钥基础设施PKI(Public Key Infrastructure)是一种利用非对称密码技术为电子商务、电子政务和电子事务的开展提供一整套安全的基础平台。PKI技术遵循国际标准,采用加密
Internet的广泛应用以及各种复杂计算机应用的出现,各种攻击技术的层出不穷以及攻击的自动化,导致现在的Internet面临前所未有的网络安全威胁,如何有效地分析这些威胁,包括宏观上