论文部分内容阅读
摘 要:本文通过对本校某年级学生成绩进行分析,主要应用数据挖掘中的关联规则和Apriori算法,挖掘出一些合理的课程关联规则,将这些规则运用到教学管理中,可以指导学生选课和合理的设置课程,为高校的教学管理提供参考。
关键词:数据挖掘;关联规则;成绩管理
中图分类号:TP311.13
努力提高学生的成绩和学生素质是每一所高校的目标,随着高校的办学规模的扩大、办学层次多样化,随着社会的发展,影响学生学习成绩的因素也越来越多,学生成绩分析就更加重要。目前教务管理系统中收集了大量的学生成绩数据,管理者大都采用传统的统计报表形式,对这些数据的处理还停留在数据录入、简单的数据备份和查询阶段,有很大的局限性。
数据挖掘技术在许多领域,如商业、金融业以及企业的生产、市场营销等一些盈利行业都得到了广泛的应用,但在非盈利行业教育领域的应用相对还较少,将数据挖掘技术引入到教务管理信息系统中,对教务管理系统中的学生成绩数据进行分析,从大量数据存在的关系、规则中研究学生成绩,预测成绩发展趋势,从而能够更好地指导教师排课和学生选课,对学生管理工作有的放矢,提高授课和学习效果能起到非常重要的作用。本文主要使用数据挖掘技术中的关联规则进行高校学生成绩分析,以找出课程之间的关联关系,指导学生选课和合理的设置课程。
1 数据挖掘关联算法
1.1 数据挖掘
数据挖掘是一个应用数据分析工具从大量数据中发现以前未知的和隐蔽的信息,以及数据之间关系的研究领域。这些工具包括统计模型,数学算法和机器学习方法。综合了多学科内容的数据挖掘,把原来对知识的简单应用,比如学生成绩的操作及简单查询等方面扩展到了对知识信息的深度提取运用,比如从现有的学生信息数据库中挖掘对学生成绩有影响的属性信息,帮助学校合理调整教学计划,提高教学质量。出于对此类应用的需求,使数据挖掘这门前沿学科吸引了各个领域的研究者。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,主要有自动预测趋势和行为、关联分析、聚类、概念描述(决策树方法、遗传算法)及偏差检测。本文主要应用了关联规则。
1.2 关联规则
关联规则的挖掘是为了在数据库中发现关联关系,它是数据挖掘最先研究的问题之一,也是数据挖掘的一个主要研究方向,起初是研究超市的顾客交易数据库中的购买商品之间的关联规则的挖掘问题,即货物篮数据的关联规则。关联规则挖掘的目的是找出数据库中不同数据项集之间隐藏的关联关系。
设I={i1,i2,…im}是项的集合。设任务相关的数据D是数据库事务的集合,其中每个事务T是项的集合,使得 。每个事务有一个标识符,称作TID。设A是一个项集,事务T包含A当且仅当 。关联规则是诸如A=>B的蕴涵式,其中 , ,并且 。规则的支持度和置信度是两个规则兴趣度量值,它们分别表示发现规则的有用性和确定性。
Sup port(A=>B)=P(A∪B) confidence(A=>B)=P(B/A)
同时满足最小支持度阈值(min_sup)和最小置信度阈值(min_conf)的规则称作强规则,我们用0%和100%之间的值而不是用0到1之间的值表示支持度和置信度。
1.3 Aprior算法
Aprior算法是经典的关联规则挖掘算法,使用一种逐层搜索的迭代方法,k项集用于探索(k+1)项集。首先,找出频繁1项目集的集合,该集合记作L1,然后由L1得到L2,由L2得到L3,如此下去,直到不能找到频繁k一项目集。每找一层Lk均需要一次数据库扫描。
Apriori算法的在执行过程中存在两个缺点,一个是需要多次扫描事务数据库D,一个是可能产生庞大的候选集。在本文应用中,基于划分的优化方法。使用划分技术,可以只需要对数据库进行两遍扫描,就可以发现全部频繁集,从而大大降低对数据库的扫描遍数。将数据库分成许多区段,在找出频繁项集时,需要经过两步:计算各区段中项集的支持度,以找出各区段中的所有频繁项集:将各区段中所有的频繁项集合结合起来后,再扫描数据库找出真正的频繁项集合。
2 成绩数据的关联挖掘
教务管理系统中收集了大量的学生成绩数据,如学生相关可包含学号、姓名、性别、班级、年级、分数等,教师相关可包含教师号、性别、科目、学历、职称、教龄等,课程相关可包含课程名称、课程号、考试类型、考试难度等数据。采取不同的数据挖掘方法,可进行如图1,不同角度分析,挖掘不同的隐藏信息。挖掘获取的信息是不可预测的,但要探索的问题是有预见的,清晰地定义问题,认清数据挖掘的目的是重要的。
图1 教务管理系统不同角度分析
2.1 数据采集、清理与转化
大学课程之间有一定的关联和前后顺序关系,因此分析学生成绩与课程之间的关系为本文重点研究的内容。本文分析数据取自本校计算机学院软件工程三本学生121名学生成绩,课程信息如表1,专业必修课选择高级语言程序设计,公共课选取大学计算机基础、高数以及线性代数,同时也取其高考成绩作为先行成绩,应用关联规则算法分析先修课成绩优良对后修课成绩的影响程度。
学生的成绩信息从教务管理系统采集,初步收集时为EXCEL表,如图2,需要进行数据清理如去除空缺记录,以及进行数据转换,对数据进行规格化操作,将数据变成统一的格式,以适合数据挖掘。
Apriori算法只能处理布尔变量,需把数值型数据转换为由项集组成的事务数据表。因为挖掘的是各课程之间的优秀关系,同样使用创建命名计算的方法,成绩在60分以上的置为“及格”,表示事务中存在该项,将成绩字段值在60分以下的置为“不及格”。建命名计算后的表的数据如图3.
图2 学生成绩信息初始表 图3 创建命名计算后数据视图
2.2 数据分析 根据数据特点和应用需要,设定最小支持度20%,最小置信度60%。算法参数:Min_Support=0.2,Min_Probability=0.6。
图4 专业课成绩的关联挖掘概率及重要性显示
图4显示了满足要求的关联规则,显示的规则已经按照概率排序,规则从上到下顺序编号为1-7。这些规则的概率和重要性分数。重要性(Importance)也称为兴趣度分数或者增益,设计重要性分数的额目的是测试规则的有效性。重要性分数越高,则规则的质量越好。重要性为0表示,A和B之间没有关联。正的重要性分数表示,当A为真时,B的概率会上升。负的重要性分数表示,当A为真时,B的概率为下降。说明线性代数取得及格(60分以上)的成绩和高级语言程序设计成绩在及格以上有很高程度的联系,特别是规则4高数成绩在及格的话,有94.4%的概率高级语言程序设计成绩为及格。
3 总结
对于高校来说,学生信息的数据量可能达到几万甚至几十万,我们需要考虑如何利用智能算法来挖掘潜在的知识。通过本文的研究,初步实现了数据挖掘技术在高校学生成绩分析中的应用。课程之间有一定的关联和前后顺序关系的,分析学生成绩与课程之间的关系,得出了一些有价值的规则,以此可对教学计划进行合理的安排,学生也可根据自身情况合理选课。
参考文献:
[1]Tan,Steinbach,Kumar.Introduction to Data Mining,2004.
[2]Hartigan,J.A.(1975).Clustering Algorithms.Wiley.MR0405726.ISBN 0-471-35645-X.
[3]韩家炜.数据挖掘:概念与技术[M].北京:机械工业出版社,2007,3.
[4]邹竞.基于FP-growth算法的课程相关性的关联规则研究[J].计算机与数字工程,2009,6.
作者简介:李莹莹,女,河南理工大学计算机学院,助教,硕士,研究方向:计算机网络,数据挖掘;张一民,男,河南理工大学在职研究生,研究方向:软件,数据挖掘。
作者单位:河南理工大学,河南焦作 454000
基金项目:河南省教育厅自然科学研究计划项目(2011A520015)
关键词:数据挖掘;关联规则;成绩管理
中图分类号:TP311.13
努力提高学生的成绩和学生素质是每一所高校的目标,随着高校的办学规模的扩大、办学层次多样化,随着社会的发展,影响学生学习成绩的因素也越来越多,学生成绩分析就更加重要。目前教务管理系统中收集了大量的学生成绩数据,管理者大都采用传统的统计报表形式,对这些数据的处理还停留在数据录入、简单的数据备份和查询阶段,有很大的局限性。
数据挖掘技术在许多领域,如商业、金融业以及企业的生产、市场营销等一些盈利行业都得到了广泛的应用,但在非盈利行业教育领域的应用相对还较少,将数据挖掘技术引入到教务管理信息系统中,对教务管理系统中的学生成绩数据进行分析,从大量数据存在的关系、规则中研究学生成绩,预测成绩发展趋势,从而能够更好地指导教师排课和学生选课,对学生管理工作有的放矢,提高授课和学习效果能起到非常重要的作用。本文主要使用数据挖掘技术中的关联规则进行高校学生成绩分析,以找出课程之间的关联关系,指导学生选课和合理的设置课程。
1 数据挖掘关联算法
1.1 数据挖掘
数据挖掘是一个应用数据分析工具从大量数据中发现以前未知的和隐蔽的信息,以及数据之间关系的研究领域。这些工具包括统计模型,数学算法和机器学习方法。综合了多学科内容的数据挖掘,把原来对知识的简单应用,比如学生成绩的操作及简单查询等方面扩展到了对知识信息的深度提取运用,比如从现有的学生信息数据库中挖掘对学生成绩有影响的属性信息,帮助学校合理调整教学计划,提高教学质量。出于对此类应用的需求,使数据挖掘这门前沿学科吸引了各个领域的研究者。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,主要有自动预测趋势和行为、关联分析、聚类、概念描述(决策树方法、遗传算法)及偏差检测。本文主要应用了关联规则。
1.2 关联规则
关联规则的挖掘是为了在数据库中发现关联关系,它是数据挖掘最先研究的问题之一,也是数据挖掘的一个主要研究方向,起初是研究超市的顾客交易数据库中的购买商品之间的关联规则的挖掘问题,即货物篮数据的关联规则。关联规则挖掘的目的是找出数据库中不同数据项集之间隐藏的关联关系。
设I={i1,i2,…im}是项的集合。设任务相关的数据D是数据库事务的集合,其中每个事务T是项的集合,使得 。每个事务有一个标识符,称作TID。设A是一个项集,事务T包含A当且仅当 。关联规则是诸如A=>B的蕴涵式,其中 , ,并且 。规则的支持度和置信度是两个规则兴趣度量值,它们分别表示发现规则的有用性和确定性。
Sup port(A=>B)=P(A∪B) confidence(A=>B)=P(B/A)
同时满足最小支持度阈值(min_sup)和最小置信度阈值(min_conf)的规则称作强规则,我们用0%和100%之间的值而不是用0到1之间的值表示支持度和置信度。
1.3 Aprior算法
Aprior算法是经典的关联规则挖掘算法,使用一种逐层搜索的迭代方法,k项集用于探索(k+1)项集。首先,找出频繁1项目集的集合,该集合记作L1,然后由L1得到L2,由L2得到L3,如此下去,直到不能找到频繁k一项目集。每找一层Lk均需要一次数据库扫描。
Apriori算法的在执行过程中存在两个缺点,一个是需要多次扫描事务数据库D,一个是可能产生庞大的候选集。在本文应用中,基于划分的优化方法。使用划分技术,可以只需要对数据库进行两遍扫描,就可以发现全部频繁集,从而大大降低对数据库的扫描遍数。将数据库分成许多区段,在找出频繁项集时,需要经过两步:计算各区段中项集的支持度,以找出各区段中的所有频繁项集:将各区段中所有的频繁项集合结合起来后,再扫描数据库找出真正的频繁项集合。
2 成绩数据的关联挖掘
教务管理系统中收集了大量的学生成绩数据,如学生相关可包含学号、姓名、性别、班级、年级、分数等,教师相关可包含教师号、性别、科目、学历、职称、教龄等,课程相关可包含课程名称、课程号、考试类型、考试难度等数据。采取不同的数据挖掘方法,可进行如图1,不同角度分析,挖掘不同的隐藏信息。挖掘获取的信息是不可预测的,但要探索的问题是有预见的,清晰地定义问题,认清数据挖掘的目的是重要的。
图1 教务管理系统不同角度分析
2.1 数据采集、清理与转化
大学课程之间有一定的关联和前后顺序关系,因此分析学生成绩与课程之间的关系为本文重点研究的内容。本文分析数据取自本校计算机学院软件工程三本学生121名学生成绩,课程信息如表1,专业必修课选择高级语言程序设计,公共课选取大学计算机基础、高数以及线性代数,同时也取其高考成绩作为先行成绩,应用关联规则算法分析先修课成绩优良对后修课成绩的影响程度。
学生的成绩信息从教务管理系统采集,初步收集时为EXCEL表,如图2,需要进行数据清理如去除空缺记录,以及进行数据转换,对数据进行规格化操作,将数据变成统一的格式,以适合数据挖掘。
Apriori算法只能处理布尔变量,需把数值型数据转换为由项集组成的事务数据表。因为挖掘的是各课程之间的优秀关系,同样使用创建命名计算的方法,成绩在60分以上的置为“及格”,表示事务中存在该项,将成绩字段值在60分以下的置为“不及格”。建命名计算后的表的数据如图3.
图2 学生成绩信息初始表 图3 创建命名计算后数据视图
2.2 数据分析 根据数据特点和应用需要,设定最小支持度20%,最小置信度60%。算法参数:Min_Support=0.2,Min_Probability=0.6。
图4 专业课成绩的关联挖掘概率及重要性显示
图4显示了满足要求的关联规则,显示的规则已经按照概率排序,规则从上到下顺序编号为1-7。这些规则的概率和重要性分数。重要性(Importance)也称为兴趣度分数或者增益,设计重要性分数的额目的是测试规则的有效性。重要性分数越高,则规则的质量越好。重要性为0表示,A和B之间没有关联。正的重要性分数表示,当A为真时,B的概率会上升。负的重要性分数表示,当A为真时,B的概率为下降。说明线性代数取得及格(60分以上)的成绩和高级语言程序设计成绩在及格以上有很高程度的联系,特别是规则4高数成绩在及格的话,有94.4%的概率高级语言程序设计成绩为及格。
3 总结
对于高校来说,学生信息的数据量可能达到几万甚至几十万,我们需要考虑如何利用智能算法来挖掘潜在的知识。通过本文的研究,初步实现了数据挖掘技术在高校学生成绩分析中的应用。课程之间有一定的关联和前后顺序关系的,分析学生成绩与课程之间的关系,得出了一些有价值的规则,以此可对教学计划进行合理的安排,学生也可根据自身情况合理选课。
参考文献:
[1]Tan,Steinbach,Kumar.Introduction to Data Mining,2004.
[2]Hartigan,J.A.(1975).Clustering Algorithms.Wiley.MR0405726.ISBN 0-471-35645-X.
[3]韩家炜.数据挖掘:概念与技术[M].北京:机械工业出版社,2007,3.
[4]邹竞.基于FP-growth算法的课程相关性的关联规则研究[J].计算机与数字工程,2009,6.
作者简介:李莹莹,女,河南理工大学计算机学院,助教,硕士,研究方向:计算机网络,数据挖掘;张一民,男,河南理工大学在职研究生,研究方向:软件,数据挖掘。
作者单位:河南理工大学,河南焦作 454000
基金项目:河南省教育厅自然科学研究计划项目(2011A520015)