论文部分内容阅读
数据挖掘(Data Mining)是目前国际上数据库和信息决策领域最前沿的研究方向之一,它能够找到隐藏在大量数据背后的规律性,为制定管理提供相应的支持信息.把数据挖掘应用于本科专业设置数据中具有一定的学术价值和广阔的市场空间。
决策树是分类应用中采用最广泛的模型之一。本文选择了决策树分类方法对本科专业设置进行研究.本课题所研究的对象是多年来本科专业教学评估、报考生源、就业信息等积累起来的大量数据.根据这些数据具有分类的预知性和离散性的特点,灵活运用决策树ID3算法,生成决策分类树.但由于影响本科专业设置的属性较多,如何对属性进行筛选(降维)以提高分类精度,就成了问题的关键。为此,本文运用了一种基于数据属性重要性排序的神经网络属性选择方法。该方法只需对部分属性进行训练,它克服了现有神经网络属性选择方法必须对全部属性进行训练的弊端。该方法先用本文提出的双向输入输出关联法对数据属性进行重要性排序,然后按重要次序用RBF神经网络进行属性选择。仿真结果表明效果良好。
用上述方法对专业设置相关属性集进行属性选择,得到新的基本属性集,同时对ID3算法中的每个内节点首先依据属性重要性将属性进行排序,然后选择最重要的属性作为分类属性生成本科专业设置决策树,并抽取规则.与传统的决策树数据分类方法相比,此方法可有效地选择出对于分类最重要的分类属性,增强决策树的抗干扰能力,并提高规则的预测精度。