决策树分类数据挖掘算法研究及其在学生信息管理系统中的应用

来源 :华东理工大学 | 被引量 : 0次 | 上传用户:dezhouhaote6600
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术在企业中的普遍应用及多年的数据积累,面向分析型应用的数据挖掘及数据仓库技术逐渐发展起来。数据挖掘是用于从大量数据中寻找有用的信息,即从大型数据库或数据仓库中提取人们感兴趣的、隐含的、事先未知的、潜在的知识的过程。 本文详细介绍了数据挖掘中的各类知识及算法。决策树算法是数据挖掘中最常用的一种方法,它能够直接体现数据的特点,便于理解,具有较好的分类预测能力,并能方便提取决策规则。文中重点介绍了基于决策树的分类算法中的ID3算法。但是ID3算法还存在着一些不足,本文针对其多值偏向性、决策树剪枝等方面的不足,根据相似性原理,对ID3算法进行改进,引入以描述属性和决策分类属性的趋近度确定测试属性,构建决策树。并对改进过的T_ID3算法和ID3算法进行理论和实例对比验证,结果表明T_ID3算法避免了多值偏向性问题,在剪枝有效性等方面也有了一定的提高。论文最后较为详细的介绍了本校学生信息管理系统的具体实现过程,并对面向毕业生就业情况分析主题进行数据挖掘,最后对挖掘结果进行分析,结合实际工作,为高校学生管理决策提供参考。
其他文献
近几十年来养殖业的发展迅速,而蟹类养殖技术和对疾病的研究却相对滞后,造成蟹类暴发病流行而无法控制的现象。本实验室于2004年11月珠海锯缘青蟹暴发病时采样,发现了一种类呼肠
经济而高效的并行计算平台对高性能地学计算有着重要的意义。吞吐率是衡量高性价比计算平台的综合重要指标,它是一个地学计算实现过程中整体效率的综合体现。通过吞吐率模型可
随着无线通信技术和网络技术的发展,信道带宽资源变得越来越珍贵,而且在实际语音通信过程中,由于受到网络拥塞、信道干扰和噪声等原因的影响,语音信号质量无法得到保证。为了
文章从信号处理的角度介绍了混沌信号的特征量李雅普诺夫指数、分形维数和有关熵的概念,并给出了区分确定性信号、随机信号和混沌信号的判断标准。研究了一种混沌序列的产生方
语音可懂度是指对语音理解的有效性的一种测度。评定语音可懂度的方法通常分为两类:主观评价和客观评价,客观评价方法较主观评价方法而言具有更好的应用性和推广性。当前用于汉
遥感影像数据的共享是遥感应用发展的必然趋势,遥感影像发布系统的研究也是当前的一个技术热点。本论文选用MapServer等一系列开源地图发布软件研究开发出一套大幅面遥感影像
高强度聚焦超声是近年来发展起来的肿瘤热疗和治疗超声领域的热点,利用相控阵实现电子聚焦扫描目前已成为最有发展前途并能解决实际临床应用的研究方向。相控聚焦可以实现更加
草甘膦N-乙酰转移酶(GAT)能通过N-乙酰化的作用使草甘膦脱毒,在抗除草剂转基因作物中具有潜在的应用价值。本实验通过PCR程序首次从提取的土壤总DNA中扩增出草甘膦N-乙酰转移酶
运动目标检测是计算机视觉、图像处理等应用领域的重要研究内容;而复杂背景又具有场景恶劣、干扰大、目标难以分割等特点,采用传统方法进行复杂背景下运动目标检测具有一定的局
为了满足未来移动通信数据流量的显著增长、海量设备的无线接入、不断涌现的各种新业务和应用场景,第五代移动通信系统(5G)近年来已被提出。而为了应对5G的容量增长,占用更多