论文部分内容阅读
在大数据时代背景下,教育数据挖掘运用教育心理学、计算机科学和统计学等多个学科的理论和技术来发现和解决教育研究、教学实践中的各种问题。本文在对H校六届毕业生共31597人的一卡通使用数据进行统计分析的基础上,着眼于探究影响大学生毕业成绩的要素。首先,假定大学生毕业成绩与大学生个人属性和行为属性密不可分,为了找到Top-k个行为轨迹,提出基于压缩时间片序列的频繁序列模式挖掘算法,并在2012级共27939974条一卡通使用记录上验证了算法的有效性和鲁棒性;然后,使用此结果及大学生前两学年的成绩成功应用SVM算法,预测其毕业成绩,验证学业预警功能,为高校学生的科学智能化管理提供新的方法和思路。本文的主要工作如下:1、大学生在校期间一卡通及各学期成绩的数据预处理。基于H校2009~2014级大学生的一卡通使用记录、选课记录、大学生的基本信息和成绩信息等数据,着眼于探究影响大学生成绩的要素,通过统计分析大学生在校期间的各种数据,假定大学生的成绩与其在校期间的行为轨迹密不可分,进而根据这些行为发生的顺序对数据集成,恢复大学生在校园内的行为轨迹。根据挖掘目标选取实验数据并完成数据的清洗、集成、变换与规范化,通过数据预处理工作,将实验数据处理成需要的数据格式。2、针对大学生行为数据的规律性,提出“规律的行为模式”概念。大学生的在校行为数据具有一定的周期性和规律性,通过统计分析大学生在校期间充足的学习时间、规律的作息和用餐习惯等行为,揭示了规律的行为模式对于大学生的成绩的影响程度,并在成绩预测模型上进行了验证。3、将行为轨迹按时间片进行切割,进而提出基于压缩时间片序列的频繁序列模式挖掘算法。通过整合大学生的一卡通消费行为、学生选课课表情况和图书馆的利用记录,结合进出宿舍的时间和在教学楼等地点进行自习活动的记录,可以粗粒度地恢复大学生在校园内的行为轨迹,得到最感兴趣的Top-k个行为轨迹,进而发现有意义的学生隐形行为模式,并有助于识别具有相似行为模式的学生。实验表明,算法具有较高的效率和准确率。4、学业预警。对大学生的个人属性、规律的行为模式和行为轨迹进行综合分析,利用大学生在校期间前两学年相似性行为和成绩的相关性,应用SVM算法,预测大学生毕业成绩以及是否能够顺利毕业。对成绩有可能会不合格的大学生给予学业预警和相应的在校行为建议等措施,辅助大学生顺利毕业。通过在真实数据集上进行大量的实验,验证了本文提出的基于压缩时间片序列的频繁序列模式挖掘算法,既利用了压缩序列的高效率特点,又减少了不必要的连接操作,大大地提高了挖掘的效率,证明了本算法的鲁棒性和有效性。本文挖掘的结果,为教学管理人员的工作提供了数据基础。