论文部分内容阅读
随着互联网的高速发展,现代教育不再受时间与空间的限制,教育的方式发了变化,同时也产生了大量与教育相关的数据。如何利用计算机技术让教育变得更合理、更高效、更有针对性,越来越受到国内外教育研究者和相关教育机构的重视。计算机技术的飞速发展使得大量积累的教育数据得到了深入的分析与研究。将数据挖掘技术运用于教育方面及教学场景中被称之为教育数据挖掘(Educational Data Mining,简称EDM)。预测学生学业成绩是教育数据挖掘中比较典型的一个研究方向,其具有较高的教育意义和学术研究意义。改革开放的深入和全球化的影响让英语教育受到越来越多的重视。和高等教育中其他的学科不同,按照目前国家教育部的指示,中国学生从小学三年级开始接触英语课程。直到大学本科毕业,每个学生基本上都要接受至少十二年的英语教育。来自不同地区,不同背景的学生在进入大学之前接受的英语教育不尽相同。正是由于这种教育的特殊性,造成进入大学后英语专业学生之间的学习策略和专业能力相差较大。教师对刚入学的学生的特点了解甚少将导致难以进行针对性的教育和引导,也可能难以识别出有潜力的学生和在学业上有高风险的学生。目前,在教育数据挖掘领域对英语教育的研究主要侧重于语言测试对教学的影响和学生的某些特征与某项英语技能的关系,如阅读、听写。研究成果仅能用于分析特定的数据,通用性较弱,没有形成智能化分析教学平台。以此为背景,本文对英语专业学生的家庭背景和社会经济地位,学习相关的数据,学习动机,英语学习日记,成就目标,访问网络的日志,校园卡消费等数据进行了深入分析与挖掘,建立机器学习模型来预测学生的英语专业能力和本科学业综合表现。即预测本科英语专业学生是否能通过英语专业四级考试(Test for English Majors-Band 4,简称TEM-4),是否能在英语专业四级考试中取得优秀成绩和预测学生在本科学业上是否具有高风险。为了提高预测的准确性,作者对源数据进行了处理。包含数据清洗、数据变换等,并对学习日志进行了文本预处理,从中提取出了可用于机器学习模型训练的文本特征。通过采取较优的特征组合,模型达到了研究预期的效果。英语专业四级考试成绩等级预测的准确率(Accuracy),精准率(Precision),召回率(Recall)均在75%以上。研究结果有一定的实际应用价值。本研究收集的数据集尽可能考虑到了英语学习的特点和可能会影响学生学业表现的因素,数据多样化且具有一定的创新意义,理论方法具有可移植性。根据此研究开发的预测系统具有较高的实用性,可复用性,可扩展性。