论文部分内容阅读
随着信息化时代的到来,信息技术不断影响并改变着经济、社会、文化、生活的方方面面,其中,教育领域同样由于信息技术的变革而受到深远的影响。教育信息数据库的容量因此而变得越来越大,针对这些大规模的数据,教育领域迫切需要一种高效的信息技术,对数据进行处理、分析和运用,并且在此基础上进一步挖掘出对不同层次教育从业者有用的信息。基于以上研究背景,本文以机器学习算法为工具,对美国大学推荐网站Score Card上使用的数据集进行深度分析,建立了以学校特征为输入,以学校毕业生平均收入为输出的回归和分类模型。通过使用该模型,可以通过一所大学的各项特征参数来合理预测该学校毕业生的平均收入,这将会对教育部门助学金等资金的有效分配和私立学校的创办都会起到很好的辅助作用。本文的主要工作如下:1.使用单变量线性回归算法对每个大学级别的特征与目标值之间的关系建立模型,分析单个特征变量对毕业生平均收入影响,对其含义进行解读。对比多变量回归模型和KNN回归模型在预测毕业生平均收入上的表现情况。2.提出了融合KNN回归的KNN多项式回归算法。此种算法在验证集上的表现要好于多变量回归算法和KNN算法,但是训练时间相对较长,好在预测毕业生平均收入这个问题并不是一个数据项会经常变动的问题,因此及时此算法的时间复杂度是两种基础算法时间复杂度之和,它在解决回归问题时的优势还是非常明显的。3.使用四种方法对毕业生的平均收入进行分类,这四种方法分别是逻辑回归、决策树、KNN和Adaboost。在这四种算法中,Adaboost算法的分类准确率最高,KNN算法的分类准确率最低,甚至还不如随机预测。且使用逻辑回归算法时出现了召回率为100%的特殊情况。4.提出了基于召回率的逻辑回归算法。如果训练出的逻辑回归模型在验证集和训练集上的召回率或精确率过高,就可以把训练集根据过高项的指标进行划分,对划分出的子模块进行训练。这样原本一层的模型就会变成两层,模型的实际精确度需要在验证集上进行验证。模型可以无限递归下去,直到模型在验证集上的精确度开始随着模型深度的增加而下降。