基于机器学习的毕业生收入预测与分析研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:dgp000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化时代的到来,信息技术不断影响并改变着经济、社会、文化、生活的方方面面,其中,教育领域同样由于信息技术的变革而受到深远的影响。教育信息数据库的容量因此而变得越来越大,针对这些大规模的数据,教育领域迫切需要一种高效的信息技术,对数据进行处理、分析和运用,并且在此基础上进一步挖掘出对不同层次教育从业者有用的信息。基于以上研究背景,本文以机器学习算法为工具,对美国大学推荐网站Score Card上使用的数据集进行深度分析,建立了以学校特征为输入,以学校毕业生平均收入为输出的回归和分类模型。通过使用该模型,可以通过一所大学的各项特征参数来合理预测该学校毕业生的平均收入,这将会对教育部门助学金等资金的有效分配和私立学校的创办都会起到很好的辅助作用。本文的主要工作如下:1.使用单变量线性回归算法对每个大学级别的特征与目标值之间的关系建立模型,分析单个特征变量对毕业生平均收入影响,对其含义进行解读。对比多变量回归模型和KNN回归模型在预测毕业生平均收入上的表现情况。2.提出了融合KNN回归的KNN多项式回归算法。此种算法在验证集上的表现要好于多变量回归算法和KNN算法,但是训练时间相对较长,好在预测毕业生平均收入这个问题并不是一个数据项会经常变动的问题,因此及时此算法的时间复杂度是两种基础算法时间复杂度之和,它在解决回归问题时的优势还是非常明显的。3.使用四种方法对毕业生的平均收入进行分类,这四种方法分别是逻辑回归、决策树、KNN和Adaboost。在这四种算法中,Adaboost算法的分类准确率最高,KNN算法的分类准确率最低,甚至还不如随机预测。且使用逻辑回归算法时出现了召回率为100%的特殊情况。4.提出了基于召回率的逻辑回归算法。如果训练出的逻辑回归模型在验证集和训练集上的召回率或精确率过高,就可以把训练集根据过高项的指标进行划分,对划分出的子模块进行训练。这样原本一层的模型就会变成两层,模型的实际精确度需要在验证集上进行验证。模型可以无限递归下去,直到模型在验证集上的精确度开始随着模型深度的增加而下降。
其他文献
英语新课标强调听、说、读、写同步提高, 尤其是“写”,它不但同其它三各环节一样,都是英语教学所要训练的重点,而且是英语应用过程中不可或缺的一环。学习英语的目的不在于死记
通过对我市文化产业发展的调查研究,分析我市文化产业发展的现状和存在的问题,指出我市要突破文化产业发展的瓶颈,必须走一条文化产业发展的创新之路,具体要做好六方面创新工
蹄病为奶牛蹄的病理变化过程,包括蹄病和蹄变形。蹄变形指蹄的形状发生改变,蹄病指蹄已发生病理变化,临床表现红肿热痛和功能障碍。蹄变形是蹄病的基础,临床表现出蹄病。
受新课改的影响,生活化教学理念被提出,并受到了小学数学教师的大力应用。对具有高逻辑性、高复杂性的数学知识来说,以生活化的手段进行讲解,能够降低学生的理解难度,同时提
要想提高高中物理课堂教学效果,教师要善于调动学生的探索积极性,而课堂提问是成功调动学生探索积极性、增强课堂上多向互动、促进学生思维能力发展的有效方式。因此,高中物
“听、说、读、写”是英语学习的四项基本内容,其中“听”排在第一位,说明课程教学模式在英语学科教学中的重要性。在我国素质教育理念实施背景下,英语学科在高中教学中的重要性
财政转移支付制度是随着分税制的实行而建立起来的,是分税制财政管理体制的一部分。完善的财政转移支付制度是以彻底的分税制为基础,并且是以明确界定政府间的财权和事权为前
本文以鸡蛋蛋清中的卵白蛋白(ovalbumin)、溶菌酶(lysozyme)以及卵粘蛋白(ovomucin)为研究对象,以三种蛋白质的结构与功能为核心,在制备出高纯度和高活性蛋白质的基础上,研究
针对渭北黄土区生态环境脆弱、经济落后以及农林复合系统持续性、多样性、高效性和稳定性的特点,以渭北黄土区的核桃、小麦复合系统为研究对象,对不同系统的土壤水分特征进行
通过两部获我国音像制品奖最高奖项的录像教学片的设计与制作实践,较详细的介绍了三维动画设计的整体构思,制作动画时应用的一些软件与技巧.