论文部分内容阅读
[摘 要] 高校教务管理数据库中储存了海量的数据,如何有效地从这些数据中挖掘潜在的信息,公正、客观地评估高校班主任能力便显得十分重要。将数据挖掘技术应用于高校班主任工作评估中,选取某高校班主任工作数据,采用ID3算法对数据进行分类和提取,构建了高校班主任评估决策树。研究结果可为教学管理部门提供科学合理的决策支持,更好地指导日常教学和管理工作。
[关 键 词] ID3算法;数据挖掘;高校班主任工作评估;决策树
[中图分类号] G647 [文献标志码] A [文章编号] 2096-0603(2016)01-0149-03
班主任工作评估是学校教学管理的重要环节,是评价班主任工作的主要手段。学校在每学期都会对班主任工作进行评价调查,在此过程中,高校教务管理数据库中储存了海量的数据,如何有效地从这些数据中挖掘潜在的信息,公正、客观地评估高校班主任能力,并作出相应决策便显得十分重要。数据挖掘技术作为解决该问题的强有力工具,受到人们的高度关注。目前,广泛应用于各个行业中,随着数据挖掘技术的成熟和应用领域的不断扩展,将数据挖掘技术应用于高校的班主任工作评估中,对于提高学校教学管理水平将起到很好的指导作用。
本文将决策树算法运用到高校班主任工作评估问题中,对某高校班主任评估数据进行分析,采用ID3算法计算不同属性的信息增益,生成高校班主任评估决策树,进而对班主任工作信息进行数据挖掘,评估班主任工作成绩,揭示影响班主任工作成绩各个因素间的关系,为教学管理部门提供决策支持,指导日常教学与管理工作,从而提高整个学校的教学管理水平。
一、ID3算法
1986年Quinlan提出了著名的基于信息熵的决策树分类算法——ID3算法,该算法的核心是在决策树中各级结点上选择属性,用最高信息增益作为结点的测试属性,使得在每一个非叶子结点进行测试时,能获得关于被测试样本集最大的类别信息,使用该属性将样本集分成子集后,系统的熵值最小。期望该非叶子结点到达各后代叶结点的平均路径最短,使生成的决策树平均深度较小,从而提高分类速度和准确率。
ID3决策树算法是一种自顶向下的贪心算法,从根结点开始,依次让信息增益最高的属性作为分裂属性,将数据样本划分为不同的样本子集,每个样本子集构成一个子结点,再对每个子结点进行划分,生成新的子结点,按上述过程一直循环,直到可以将样本准确分类或已经选择完所有的属性,最终生成的决策树每个叶结点都对应一个分类。
ID3算法原理如下:
设S是s个数据样本的集合。假定类标号属性具有m个不同值,定义m个不同类Ci(i=1,……,m)。设si是类Ci中的样本数。对一个给定的样本分类所需的期望信息由下式给出:
二、ID3算法在高校班主任工作评估中的应用
(一)数据预处理
我们在进行挖掘之前必须对数据进行整理和归纳,列出不同类型影响因素,为数据挖掘做好充分准备。对高校班主任工作成绩评估进行分析时需要考虑“班主任总结成绩”“学生测评成绩”“参加例会成绩”“开展班会成绩”及“发表论文成绩”等属性对总成绩的影响,高校班主任工作评估属性如表1所示。除了“发表论文成绩”属性,将班主任属性成绩的所有值按80分以上、70~80分、0~70分划分成“A”“B”“C”3类,总评成绩按85分以上、70~85分、60~70分、0~60分划分为“优”“良”“中”“差”4类。选择某高校26名班主任工作评估的实例作为具体样本,具体情况如表2所示。
(二)2ID3算法建立决策树
1.计算信息增益
对所有属性进行信息增益计算,先计算该样本属性的期望信息(信息熵)。
分析表中数据可知,26名班主任工作评估成绩为优、良、中、差的人数分别为8,6,5,7人。根据公式(1)则有:
由公式(4)计算属性“班主任总结成绩”上分枝将获得的信息增益是:
Gain(班主任总结成绩)=INFO(S)-E(班主任总结成绩)=0.878995
(2)学生测评成绩
学生测评成绩为“A”,“B”,“C”的人数分别为7,8,11人,相应信息熵的计算方法与上文一致:
INFO(A)=0
INFO(B)=1.0613
INFO(C)=0.9457
E(学习测评成绩)=0.7267
Gain(学生)=INFO(S)-E(学生测评成绩)=1.2518
(3)参加例会情况
参加例会情况成绩为“A”,“B”,“C”的人数分别为8,8,10人,相应信息熵的计算如下:
INFO(A)=1.4056
INFO(B)=1.9056
INFO(C)=1.7610
E(参加例会成绩)=1.6961
Gain(例会)=INFO(S)-E(参加例会成绩)=0.2824
(4)开展班会情况
开展班会情况成绩为“A”,“B”,“C”的人数分别为4,9,13人,相应信息熵的计算如下:
INFO(A)=0
INFO(B)=1.3921
INFO(C)=1.4196
E(开展班会成绩)=1.1917
Gain(班会)=INFO(S)-E(开展班会成绩)=0.7868
(5)发表论文情况
发表论文情况成绩为“A”,“B”,“C”的人数分别为9,15,2人,相应信息熵的计算如下:
INFO(A)=1.8366
INFO(B)=1.9219
INFO(C)=1
E(发表论文成绩)=1.8215
Gain(论文)=INFO(S)-E(发表论文成绩)=0.1570
2.决策树构建及分析
根据以上计算得出Gain(学生测评成绩)最大,按照信息最大的原则,选择学生测评成绩为根节点建立决策树,然后对每一颗子树按照以上方法进行递归计算,最终就可得到由ID3算法构造出高校班主任工作评估的决策树如下图所示:
根据图1的决策树,高校班主任可以利用它作为平时工作的参考,例如,班里学生的测评成绩是和班主任的工作评估直接挂钩的,因此,想要成为一个优秀的班主任,学生测评成绩最为重要;另一方面,如果一个班主任的学生测评成绩是“A”,那么他的“开展班会成绩”“参加例会成绩”等属性也不会差,最终其班主任评估成绩为“优”。同时学校方面也可以利用这些隐藏的信息为教学管理部门提供决策,指导日常的教学及管理工作。
三、结论
在目前的数据挖掘研究领域中,决策树算法仍然是应用最为广泛的一种分类模型,相比其他的方法具有计算速度快、分类准确率高等优点。ID3算法是决策树算法的一种典型算法,把ID3算法应用于高校班主任工作评估中,可以全面分析各个因素之间的内在联系,挖掘更多隐藏的信息,从而给予公平、公正、客观的评价标准。学校则可以利用这些隐藏的信息发现有用的价值,为教学管理部门提供决策支持,指导日常教学与管理工作,以崭新的理念、科学的方法引导高校发展,从而提高整个学校的教学管理水平。
参考文献:
[1]袁燕.决策树算法在高校教学评价系统中的应用[J].浙江海洋学院学报:自然科学版,2006,25(4):440-444.
[2]桂维魁,陈涛,柳洋.基于ID3算法的考试成绩分析决策树的构造[J].天津城市建设学院学报,2008,14(2):139-141.
[3]李霞.ID3分类算法在银行客户流失中的应用研究[J].计算机技术与发展,2009,19(3):158-160.
[4]吴珊,赵敏君,黄雅婷,等.ID3决策树在报考中的应用研究[J].电脑知识与技术,2013,9(30):6705-6709.
[关 键 词] ID3算法;数据挖掘;高校班主任工作评估;决策树
[中图分类号] G647 [文献标志码] A [文章编号] 2096-0603(2016)01-0149-03
班主任工作评估是学校教学管理的重要环节,是评价班主任工作的主要手段。学校在每学期都会对班主任工作进行评价调查,在此过程中,高校教务管理数据库中储存了海量的数据,如何有效地从这些数据中挖掘潜在的信息,公正、客观地评估高校班主任能力,并作出相应决策便显得十分重要。数据挖掘技术作为解决该问题的强有力工具,受到人们的高度关注。目前,广泛应用于各个行业中,随着数据挖掘技术的成熟和应用领域的不断扩展,将数据挖掘技术应用于高校的班主任工作评估中,对于提高学校教学管理水平将起到很好的指导作用。
本文将决策树算法运用到高校班主任工作评估问题中,对某高校班主任评估数据进行分析,采用ID3算法计算不同属性的信息增益,生成高校班主任评估决策树,进而对班主任工作信息进行数据挖掘,评估班主任工作成绩,揭示影响班主任工作成绩各个因素间的关系,为教学管理部门提供决策支持,指导日常教学与管理工作,从而提高整个学校的教学管理水平。
一、ID3算法
1986年Quinlan提出了著名的基于信息熵的决策树分类算法——ID3算法,该算法的核心是在决策树中各级结点上选择属性,用最高信息增益作为结点的测试属性,使得在每一个非叶子结点进行测试时,能获得关于被测试样本集最大的类别信息,使用该属性将样本集分成子集后,系统的熵值最小。期望该非叶子结点到达各后代叶结点的平均路径最短,使生成的决策树平均深度较小,从而提高分类速度和准确率。
ID3决策树算法是一种自顶向下的贪心算法,从根结点开始,依次让信息增益最高的属性作为分裂属性,将数据样本划分为不同的样本子集,每个样本子集构成一个子结点,再对每个子结点进行划分,生成新的子结点,按上述过程一直循环,直到可以将样本准确分类或已经选择完所有的属性,最终生成的决策树每个叶结点都对应一个分类。
ID3算法原理如下:
设S是s个数据样本的集合。假定类标号属性具有m个不同值,定义m个不同类Ci(i=1,……,m)。设si是类Ci中的样本数。对一个给定的样本分类所需的期望信息由下式给出:
二、ID3算法在高校班主任工作评估中的应用
(一)数据预处理
我们在进行挖掘之前必须对数据进行整理和归纳,列出不同类型影响因素,为数据挖掘做好充分准备。对高校班主任工作成绩评估进行分析时需要考虑“班主任总结成绩”“学生测评成绩”“参加例会成绩”“开展班会成绩”及“发表论文成绩”等属性对总成绩的影响,高校班主任工作评估属性如表1所示。除了“发表论文成绩”属性,将班主任属性成绩的所有值按80分以上、70~80分、0~70分划分成“A”“B”“C”3类,总评成绩按85分以上、70~85分、60~70分、0~60分划分为“优”“良”“中”“差”4类。选择某高校26名班主任工作评估的实例作为具体样本,具体情况如表2所示。
(二)2ID3算法建立决策树
1.计算信息增益
对所有属性进行信息增益计算,先计算该样本属性的期望信息(信息熵)。
分析表中数据可知,26名班主任工作评估成绩为优、良、中、差的人数分别为8,6,5,7人。根据公式(1)则有:
由公式(4)计算属性“班主任总结成绩”上分枝将获得的信息增益是:
Gain(班主任总结成绩)=INFO(S)-E(班主任总结成绩)=0.878995
(2)学生测评成绩
学生测评成绩为“A”,“B”,“C”的人数分别为7,8,11人,相应信息熵的计算方法与上文一致:
INFO(A)=0
INFO(B)=1.0613
INFO(C)=0.9457
E(学习测评成绩)=0.7267
Gain(学生)=INFO(S)-E(学生测评成绩)=1.2518
(3)参加例会情况
参加例会情况成绩为“A”,“B”,“C”的人数分别为8,8,10人,相应信息熵的计算如下:
INFO(A)=1.4056
INFO(B)=1.9056
INFO(C)=1.7610
E(参加例会成绩)=1.6961
Gain(例会)=INFO(S)-E(参加例会成绩)=0.2824
(4)开展班会情况
开展班会情况成绩为“A”,“B”,“C”的人数分别为4,9,13人,相应信息熵的计算如下:
INFO(A)=0
INFO(B)=1.3921
INFO(C)=1.4196
E(开展班会成绩)=1.1917
Gain(班会)=INFO(S)-E(开展班会成绩)=0.7868
(5)发表论文情况
发表论文情况成绩为“A”,“B”,“C”的人数分别为9,15,2人,相应信息熵的计算如下:
INFO(A)=1.8366
INFO(B)=1.9219
INFO(C)=1
E(发表论文成绩)=1.8215
Gain(论文)=INFO(S)-E(发表论文成绩)=0.1570
2.决策树构建及分析
根据以上计算得出Gain(学生测评成绩)最大,按照信息最大的原则,选择学生测评成绩为根节点建立决策树,然后对每一颗子树按照以上方法进行递归计算,最终就可得到由ID3算法构造出高校班主任工作评估的决策树如下图所示:
根据图1的决策树,高校班主任可以利用它作为平时工作的参考,例如,班里学生的测评成绩是和班主任的工作评估直接挂钩的,因此,想要成为一个优秀的班主任,学生测评成绩最为重要;另一方面,如果一个班主任的学生测评成绩是“A”,那么他的“开展班会成绩”“参加例会成绩”等属性也不会差,最终其班主任评估成绩为“优”。同时学校方面也可以利用这些隐藏的信息为教学管理部门提供决策,指导日常的教学及管理工作。
三、结论
在目前的数据挖掘研究领域中,决策树算法仍然是应用最为广泛的一种分类模型,相比其他的方法具有计算速度快、分类准确率高等优点。ID3算法是决策树算法的一种典型算法,把ID3算法应用于高校班主任工作评估中,可以全面分析各个因素之间的内在联系,挖掘更多隐藏的信息,从而给予公平、公正、客观的评价标准。学校则可以利用这些隐藏的信息发现有用的价值,为教学管理部门提供决策支持,指导日常教学与管理工作,以崭新的理念、科学的方法引导高校发展,从而提高整个学校的教学管理水平。
参考文献:
[1]袁燕.决策树算法在高校教学评价系统中的应用[J].浙江海洋学院学报:自然科学版,2006,25(4):440-444.
[2]桂维魁,陈涛,柳洋.基于ID3算法的考试成绩分析决策树的构造[J].天津城市建设学院学报,2008,14(2):139-141.
[3]李霞.ID3分类算法在银行客户流失中的应用研究[J].计算机技术与发展,2009,19(3):158-160.
[4]吴珊,赵敏君,黄雅婷,等.ID3决策树在报考中的应用研究[J].电脑知识与技术,2013,9(30):6705-6709.