基于关联规则的毕业生就业现状与在校表现分析

来源 :亚太教育 | 被引量 : 0次 | 上传用户:caichengzyokokok
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:基于对某独立学院毕业生的调查问卷,通过Apriori算法进行关联规则分析并实现数据可视化,挖掘毕业生平均学分绩点,毕业半年后月收入和现状满意度之间的潜在关系,从而给学校相关部门以及在校生提供参考。
  通过关联分析,我们得出以下结论:平均学分绩点在[3,4)的毕业生普遍对现状感到不满意;毕业生的平均学分绩点越低,则毕业生半年后的月收入就呈较低的趋势。对此,我们给出相应建议:在对毕业生进行就业指导时,可按绩点进行分批培训给不同层次的学生进行对应的辅导,适当对平均学分绩点在[1,2)和[3,4)范围内的学生加强辅导、劝导以及指导,增强对现状的满意度,使其更好的应对严峻的就业形势。
  关键词:关联规则;Apriori算法;数据可视化
  中图分类号:G420文献标志码:A文章编号:2095-9214(2016)07-0235-02
  一、引言
  近年来,我国大学生就业难问题愈发严重。本文在这一背景下以某独立学院2010级毕业生为例,对其在校表现与就业现状进行关联性分析。旨在找出两者间的关系,给学校相关部门和在校生提出一些切实可行的建议。
  二、基于Apriori算法的静态关联规则基本原理
  Apriori算法是一种先验概率算法,它利用了频集特性的先验知识,采取层次顺序搜索的循环方法来完成频繁项集的挖掘工作[1]。本文利用R语言中arules包及其相关包对我校毕业生半年后月收入,在校各类满意度和平均学分绩点进行关联规则挖掘和数据可视化展现。
  关联规则的一般表示形式为: X=>Y (规则支持度,规则置信度,规则提升度),其中X为规则前项,Y为规则后项,规则支持度,规则置信度及规则提升度是规则的评价指标。
  规则支持度是该项集出现的次数除以总的记录数。其意义在于度量项集在整个事务集中出现的频次。我们在发现有价值的规则时,会更多的关注频次高的项集。
  ConfidenceX=>Y=SupportX∪YSupportX
  規则提升度反映X的出现对Y出现的影响程度,一般大于1才有意义,表示X的出现对Y的出现有促进作用,故规则提升度越大越好,其表达式如下:
  LiftX=>Y=SupportX∪YSupportX*SupportY
  三、关联规则的应用
  置信度和支持度阀值的设定直接影响到关联规则结果输出的数量。若置信度和支持度的阀值设置得越小,生成的关联规则越多,而关联规则所体现的项集之间的关联更倾向于偶然;若置信度和支持度的阀值设置得太大,就可能无法得到关联规则,因此需要合理地设置阀值。若计算出的规则的置信度大于或等于预先给定的最小置信度阈值,且支持度大于或等于预先给定的最小支持度阈值,那么这条规则就被保留下来,否则删除。
  得出符合条件的全部关联规则中可能存在冗余的规则,即规则1实际上包含了规则2,且规则2与规则1的提升度相等,或低于规则1的提升度,由此认定规则2是冗余的。因此我们通过生成关联规则子矩阵并删除其每列元素和大于等于1的列将冗余的规则删除,得到最终的关联规则并根据提升度降序排序。
  由于提升度大于1的才有意义,因此,本文提取提升度大于1的三条关联规则进行分析讨论。
  本文做了两个关联分析,第一个关联分析选取大学生对现状满意度为后项,以大学生平均学分绩点为前项;第二个关联分析是以大学生毕业后半年月收入为后项,以大学生平均学分绩点为前项。
  1.现状满意度跟平均绩点的关联规则
  首先进行第一个关联分析,选取最小置信度阈值为30%,且最小支持度阈值为0.4%,冗余处理后剩下3条关联规则如表1。
  图1 现状满意度与平均绩点的关联规则泡泡图
  图1中圈的大小表示支持度的值,支持度代表两种事物同时出现的概率。颜色的深浅代表了提升度的大小。由图可知,绩点[1,2)和[3,4)范围内的毕业生与对现状不满意关联程度较高,绩点[2,3)范围内的毕业生与对现状满意关联程度较高。
  从表1看到,三条关联规则的提升度均大于1,说明这三个规则中,一个学生出现该平均学分绩点时,他相对于其他绩点的学生对自己的现状出现该满意度的可能性较大,而且提升度越大,代表这条关联规则越有价值。
  第一个关联规则:平均学分绩点=[3,4) =>对自己的现状是否满意=不满意的支持度为0.1633,这说明2014届毕业生当中有16.33%的毕业生平均绩点在[3,4)范围内时,同时会对自己的现状感到不满意;它的置信度是0.3668,说明平均绩点在[3,4)范围内的毕业生中有36.68%的毕业生确实对自己现状感到不满意。
  第二个关联规则:平均学分绩点=[2,3) =>对自己的现状是否满意=满意的支持度为0.2933,这说明2014届毕业生当中有29.33%的毕业生平均绩点在[2,3)范围内时,同时会对自己的现状感到满意;而在2014届平均绩点为[2,3)范围内的毕业生中,对自己的现状感到满意的毕业生占55.80%,即该规则的置信度为0.5580。
  第三个关联规则:平均学分绩点=[1,2) =>对自己的现状是否满意=不满意的支持度为0.0097,这说明2014届毕业生当中有0.97%的毕业生平均绩点在[1,2)范围内时,同时会对自己的现状感到不满意;而在2014届平均绩点为[1,2)范围内的毕业生中,对自己的现状感到不满意的毕业生占35.29%,即该规则的置信度为0.3529。
  平均学分绩点在[3,4)范围内的会对现状感到不满意的原因也许是要求过高,成绩好的都希望找到一份好工作或者好的出路,但个人感觉并没有很好,因此对现状感到不满意。因此,在对毕业生进行就业指导时,可按绩点进行分批培训给不同层次的学生进行对应的辅导,或者适当对平均学分绩点在[1,2)和[3,4)范围内的学生加强辅导、劝导以及指导,增强对现状的满意度。   2.月收入跟绩点的关联规则
  注:月收入1类为(0,2500], 2类为(2500,3500], 3类为(3500,4500], 4类为(4500,5500], 5类为5500以上
  從表2看到,在设定最小支持度的阀值为0.004,最小置信度阀值为0.1的条件下,七条关联规则的提升度均大于1。经过冗余处理的数据,关联规则并未有所减少,冗余前后都包含10条关联规则,说明该数据并没有存在冗余的规则。
  第一条关联规则:说明在2014届毕业生中有0.49%的毕业半年后的月收入属于5类,同时平均学分绩点落在[1,2)的范围内。且在平均绩点在[1,2)范围内的毕业生中有17.65%的毕业生月收入属于5类。相对于其他规则,其可能性较低,属于“令人费解的规则”,其价值不值得深入分析。
  第四条关联规则:说明在2014届毕业生中有13.16%的毕业半年后的月收入属于3类,同时平均学分绩点落在[3,4)的范围内。且在平均绩点在[3,4)范围内的毕业生中有29.56%的毕业生月收入属于3类。
  第五条关联规则:说明在2014届毕业生中有17.22%的毕业半年后的月收入属于2类,同时平均学分绩点落在[3,4)的范围内。且在平均绩点在[3,4)范围内的毕业生中有38.69%的毕业生月收入属于2类。
  第四条关联规则和第五条关联规则均属于发生概率较高的规则,说明在校成绩较为良好的学生出来就业时的月收入均属于中等水平,且该种现象普遍存在于本校。
  从整体看,整体的支持度均较高,由此可知,毕业生的平均学分绩点在一定程度上影响了毕业生半年后的月收入,并可看出,毕业生的平均学分绩点越低,则毕业生毕业半年后的月收入就越低的趋势。另一方面,说明我校在开展学生工作时应给予学生必要的思想工作,适当地跟学习成绩较差的学生进行沟通,使其可以应对较为严峻的就业形势。
  四、结论及相关建议
  通过关联分析,我们分别研究了绩点与现状满意度的关系,以及月收入与绩点的关系。通过设定最小阀值消除冗余,提取提升度大于1的关联规则,我们得出以下结论,并分别给出相应对策:
  (1) 平均学分绩点在[3,4)的毕业生普遍对现状感到不满意,在2014届的毕业生中达到16.33%的比例。对此,在对毕业生进行就业指导时,可按绩点进行分批培训给不同层次的学生进行对应的辅导,或者适当对平均学分绩点在[1,2)和[3,4)范围内的学生加强辅导、劝导以及指导,增强对现状的满意度。
  (2)毕业生的平均学分绩点在一定程度上影响了毕业生半年后的月收入,毕业生的平均学分绩点越低,则毕业生毕业半年后的月收入就越低的趋势。其中平均绩点落在[3,4)的毕业生中,毕业后的月收入多数落在2类和3类,其在2014届的毕业生中分别达到13.16%和17.22%的比例。说明我校在开展学生工作时应给予学生必要的思想工作,适当地跟绩点落在[3,4)的学生进行沟通,提供就业方面的相关辅导,使其可以应对较为严峻的就业形势。
  (作者单位:北京理工大学珠海学院数理与土木工程学院)
  北京理工大学珠海学院大学生创新创业训练计划项目省级课题
  参考文献:
  [1]王星等译.大数据分析:方法与应用[M],清华大学出版社,2013.
  [2]陈健等译.R语言与数据挖掘(最佳实践和经典案例)[M],机械工业出版社,2014.
  [3]李洪成等译.机器学习与R语言[M],机械工业出版社,2015.
  [4]范明等译.数据挖掘基础教程[M],机械工业出版社,2009.
  [5]范明等译.数据挖掘(概念与技术)[M],机械工业出版社,2012.
  [6]范明等译.数据挖掘导论(完整版)[M],人民邮电出版社,2013.
其他文献
摘要:高校是各种思想文化相互激荡的中心,互联网越来越成为大学生学习、工作、生活的新空间。互联网和马克思主义教育是密切相关的,如何应该互联网发展过程中对高校马克思主义教育的挑战是提高高校教育水平的关键,也是培养新一代马克思主义人才的必由之路。  关键词:互联网+教育;高校;马克思主义教育;挑战;应对  中图分类号:G641文献标志码:A文章编号:2095-9214(2016)08-0112-01  
<正> 近几十年来,随着人口“城市化”过程的发展,人口迅速向城市转移和聚集;城市人口的急剧膨胀,以及由此带来的“城市病”,越来越为人口学术界所关注,对城市与城市化问题的
本文根据Scheibner的铜原子电子碰撞截面,对电子速率分布求平均,得到了电子温度在0.1—6ev时的铜原子~2S~e→~2P~o、~2S~e→~2D~e碰撞速率以及弹性碰撞速率。这些速率数据有
摘 要:文化的核心是思想,思想的核心是价值观,基于共同的社会文化认同是开展大学生社会主义核心价值观教育的前提和基础。通过分析在文化认同危机下,社会主义核心价值观教育存在的困境与挑战,旨在探索大学生社会主义核心价值观教育的途径。  关键词:文化认同;核心价值观;途径  中图分类号:G641文献标志码:A文章编号:2095-9214(2016)06-0254-02  核心价值观是一个国家和民族价值体系
在当今时代是互联网和移动媒体快速发展的时代,随着智能手机的兴起和广泛应用,手机微信已经成为一个重要的新媒体的力量。大学生使用微信的过程中,他们的世界观、人生观和价
本文对某类高阶、高维非线性非自治系统的零解全局渐近稳定性进行讨论,得到了零解全局稳定的某些判别公式。本文的结论推广了文[2]的结果。
分析制造业创新中心主体的行为;提出创新主体是否加入制造业创新中心的多人雪堆演化博弈模型,并进行演化稳定性分析,锁定要素对制造业创新中心形成的作用。围绕控制创新主体
摘 要:研究发现,听力理解的能力会直接影响到学习者第二语言学习的效果以及综合的应用外语的能力。本文重要分析大学英语听力教学的心理语言模式,并在此基础上探讨有效的提高大学英语听力教学效果的相关策略,希望能为相关的研究提供重要参考价值。  关键词:听力理解能力;听力活动;心理语言规律;大学英语教学  中图分类号:G633.3文献标志码:A文章编号:2095-9214(2016)09-0114-01  
摘 要:单片机课程是一门以培养学生工程实践能力、技术创新能力、团队协作能力等为目标的教学课程,它与生产实际紧密相连,在整个电类课程体系中具有非常重要的位置。但当前单片机课程教学往往存在教学形式单一,实践操作方法、内容滞后于现代企业需求等诸多问题,因此采用了一体化教学模式对单片机教学进行了改革尝试,使学生边学边做,理论紧密联系于实践,提高了学生单片机设计和开发应用的能力。  关键词:单片机;一体化;
【正】由于现代社会特有的物理环境和社会环境,大量信息冲击着人们的心灵,城市中的居民在心理上处于“超负荷”状态。一方面,城市的物质环境使人们只是与一幢幢高楼大厦建立