论文部分内容阅读
摘 要:基于对某独立学院毕业生的调查问卷,通过Apriori算法进行关联规则分析并实现数据可视化,挖掘毕业生平均学分绩点,毕业半年后月收入和现状满意度之间的潜在关系,从而给学校相关部门以及在校生提供参考。
通过关联分析,我们得出以下结论:平均学分绩点在[3,4)的毕业生普遍对现状感到不满意;毕业生的平均学分绩点越低,则毕业生半年后的月收入就呈较低的趋势。对此,我们给出相应建议:在对毕业生进行就业指导时,可按绩点进行分批培训给不同层次的学生进行对应的辅导,适当对平均学分绩点在[1,2)和[3,4)范围内的学生加强辅导、劝导以及指导,增强对现状的满意度,使其更好的应对严峻的就业形势。
关键词:关联规则;Apriori算法;数据可视化
中图分类号:G420文献标志码:A文章编号:2095-9214(2016)07-0235-02
一、引言
近年来,我国大学生就业难问题愈发严重。本文在这一背景下以某独立学院2010级毕业生为例,对其在校表现与就业现状进行关联性分析。旨在找出两者间的关系,给学校相关部门和在校生提出一些切实可行的建议。
二、基于Apriori算法的静态关联规则基本原理
Apriori算法是一种先验概率算法,它利用了频集特性的先验知识,采取层次顺序搜索的循环方法来完成频繁项集的挖掘工作[1]。本文利用R语言中arules包及其相关包对我校毕业生半年后月收入,在校各类满意度和平均学分绩点进行关联规则挖掘和数据可视化展现。
关联规则的一般表示形式为: X=>Y (规则支持度,规则置信度,规则提升度),其中X为规则前项,Y为规则后项,规则支持度,规则置信度及规则提升度是规则的评价指标。
规则支持度是该项集出现的次数除以总的记录数。其意义在于度量项集在整个事务集中出现的频次。我们在发现有价值的规则时,会更多的关注频次高的项集。
ConfidenceX=>Y=SupportX∪YSupportX
規则提升度反映X的出现对Y出现的影响程度,一般大于1才有意义,表示X的出现对Y的出现有促进作用,故规则提升度越大越好,其表达式如下:
LiftX=>Y=SupportX∪YSupportX*SupportY
三、关联规则的应用
置信度和支持度阀值的设定直接影响到关联规则结果输出的数量。若置信度和支持度的阀值设置得越小,生成的关联规则越多,而关联规则所体现的项集之间的关联更倾向于偶然;若置信度和支持度的阀值设置得太大,就可能无法得到关联规则,因此需要合理地设置阀值。若计算出的规则的置信度大于或等于预先给定的最小置信度阈值,且支持度大于或等于预先给定的最小支持度阈值,那么这条规则就被保留下来,否则删除。
得出符合条件的全部关联规则中可能存在冗余的规则,即规则1实际上包含了规则2,且规则2与规则1的提升度相等,或低于规则1的提升度,由此认定规则2是冗余的。因此我们通过生成关联规则子矩阵并删除其每列元素和大于等于1的列将冗余的规则删除,得到最终的关联规则并根据提升度降序排序。
由于提升度大于1的才有意义,因此,本文提取提升度大于1的三条关联规则进行分析讨论。
本文做了两个关联分析,第一个关联分析选取大学生对现状满意度为后项,以大学生平均学分绩点为前项;第二个关联分析是以大学生毕业后半年月收入为后项,以大学生平均学分绩点为前项。
1.现状满意度跟平均绩点的关联规则
首先进行第一个关联分析,选取最小置信度阈值为30%,且最小支持度阈值为0.4%,冗余处理后剩下3条关联规则如表1。
图1 现状满意度与平均绩点的关联规则泡泡图
图1中圈的大小表示支持度的值,支持度代表两种事物同时出现的概率。颜色的深浅代表了提升度的大小。由图可知,绩点[1,2)和[3,4)范围内的毕业生与对现状不满意关联程度较高,绩点[2,3)范围内的毕业生与对现状满意关联程度较高。
从表1看到,三条关联规则的提升度均大于1,说明这三个规则中,一个学生出现该平均学分绩点时,他相对于其他绩点的学生对自己的现状出现该满意度的可能性较大,而且提升度越大,代表这条关联规则越有价值。
第一个关联规则:平均学分绩点=[3,4) =>对自己的现状是否满意=不满意的支持度为0.1633,这说明2014届毕业生当中有16.33%的毕业生平均绩点在[3,4)范围内时,同时会对自己的现状感到不满意;它的置信度是0.3668,说明平均绩点在[3,4)范围内的毕业生中有36.68%的毕业生确实对自己现状感到不满意。
第二个关联规则:平均学分绩点=[2,3) =>对自己的现状是否满意=满意的支持度为0.2933,这说明2014届毕业生当中有29.33%的毕业生平均绩点在[2,3)范围内时,同时会对自己的现状感到满意;而在2014届平均绩点为[2,3)范围内的毕业生中,对自己的现状感到满意的毕业生占55.80%,即该规则的置信度为0.5580。
第三个关联规则:平均学分绩点=[1,2) =>对自己的现状是否满意=不满意的支持度为0.0097,这说明2014届毕业生当中有0.97%的毕业生平均绩点在[1,2)范围内时,同时会对自己的现状感到不满意;而在2014届平均绩点为[1,2)范围内的毕业生中,对自己的现状感到不满意的毕业生占35.29%,即该规则的置信度为0.3529。
平均学分绩点在[3,4)范围内的会对现状感到不满意的原因也许是要求过高,成绩好的都希望找到一份好工作或者好的出路,但个人感觉并没有很好,因此对现状感到不满意。因此,在对毕业生进行就业指导时,可按绩点进行分批培训给不同层次的学生进行对应的辅导,或者适当对平均学分绩点在[1,2)和[3,4)范围内的学生加强辅导、劝导以及指导,增强对现状的满意度。 2.月收入跟绩点的关联规则
注:月收入1类为(0,2500], 2类为(2500,3500], 3类为(3500,4500], 4类为(4500,5500], 5类为5500以上
從表2看到,在设定最小支持度的阀值为0.004,最小置信度阀值为0.1的条件下,七条关联规则的提升度均大于1。经过冗余处理的数据,关联规则并未有所减少,冗余前后都包含10条关联规则,说明该数据并没有存在冗余的规则。
第一条关联规则:说明在2014届毕业生中有0.49%的毕业半年后的月收入属于5类,同时平均学分绩点落在[1,2)的范围内。且在平均绩点在[1,2)范围内的毕业生中有17.65%的毕业生月收入属于5类。相对于其他规则,其可能性较低,属于“令人费解的规则”,其价值不值得深入分析。
第四条关联规则:说明在2014届毕业生中有13.16%的毕业半年后的月收入属于3类,同时平均学分绩点落在[3,4)的范围内。且在平均绩点在[3,4)范围内的毕业生中有29.56%的毕业生月收入属于3类。
第五条关联规则:说明在2014届毕业生中有17.22%的毕业半年后的月收入属于2类,同时平均学分绩点落在[3,4)的范围内。且在平均绩点在[3,4)范围内的毕业生中有38.69%的毕业生月收入属于2类。
第四条关联规则和第五条关联规则均属于发生概率较高的规则,说明在校成绩较为良好的学生出来就业时的月收入均属于中等水平,且该种现象普遍存在于本校。
从整体看,整体的支持度均较高,由此可知,毕业生的平均学分绩点在一定程度上影响了毕业生半年后的月收入,并可看出,毕业生的平均学分绩点越低,则毕业生毕业半年后的月收入就越低的趋势。另一方面,说明我校在开展学生工作时应给予学生必要的思想工作,适当地跟学习成绩较差的学生进行沟通,使其可以应对较为严峻的就业形势。
四、结论及相关建议
通过关联分析,我们分别研究了绩点与现状满意度的关系,以及月收入与绩点的关系。通过设定最小阀值消除冗余,提取提升度大于1的关联规则,我们得出以下结论,并分别给出相应对策:
(1) 平均学分绩点在[3,4)的毕业生普遍对现状感到不满意,在2014届的毕业生中达到16.33%的比例。对此,在对毕业生进行就业指导时,可按绩点进行分批培训给不同层次的学生进行对应的辅导,或者适当对平均学分绩点在[1,2)和[3,4)范围内的学生加强辅导、劝导以及指导,增强对现状的满意度。
(2)毕业生的平均学分绩点在一定程度上影响了毕业生半年后的月收入,毕业生的平均学分绩点越低,则毕业生毕业半年后的月收入就越低的趋势。其中平均绩点落在[3,4)的毕业生中,毕业后的月收入多数落在2类和3类,其在2014届的毕业生中分别达到13.16%和17.22%的比例。说明我校在开展学生工作时应给予学生必要的思想工作,适当地跟绩点落在[3,4)的学生进行沟通,提供就业方面的相关辅导,使其可以应对较为严峻的就业形势。
(作者单位:北京理工大学珠海学院数理与土木工程学院)
北京理工大学珠海学院大学生创新创业训练计划项目省级课题
参考文献:
[1]王星等译.大数据分析:方法与应用[M],清华大学出版社,2013.
[2]陈健等译.R语言与数据挖掘(最佳实践和经典案例)[M],机械工业出版社,2014.
[3]李洪成等译.机器学习与R语言[M],机械工业出版社,2015.
[4]范明等译.数据挖掘基础教程[M],机械工业出版社,2009.
[5]范明等译.数据挖掘(概念与技术)[M],机械工业出版社,2012.
[6]范明等译.数据挖掘导论(完整版)[M],人民邮电出版社,2013.
通过关联分析,我们得出以下结论:平均学分绩点在[3,4)的毕业生普遍对现状感到不满意;毕业生的平均学分绩点越低,则毕业生半年后的月收入就呈较低的趋势。对此,我们给出相应建议:在对毕业生进行就业指导时,可按绩点进行分批培训给不同层次的学生进行对应的辅导,适当对平均学分绩点在[1,2)和[3,4)范围内的学生加强辅导、劝导以及指导,增强对现状的满意度,使其更好的应对严峻的就业形势。
关键词:关联规则;Apriori算法;数据可视化
中图分类号:G420文献标志码:A文章编号:2095-9214(2016)07-0235-02
一、引言
近年来,我国大学生就业难问题愈发严重。本文在这一背景下以某独立学院2010级毕业生为例,对其在校表现与就业现状进行关联性分析。旨在找出两者间的关系,给学校相关部门和在校生提出一些切实可行的建议。
二、基于Apriori算法的静态关联规则基本原理
Apriori算法是一种先验概率算法,它利用了频集特性的先验知识,采取层次顺序搜索的循环方法来完成频繁项集的挖掘工作[1]。本文利用R语言中arules包及其相关包对我校毕业生半年后月收入,在校各类满意度和平均学分绩点进行关联规则挖掘和数据可视化展现。
关联规则的一般表示形式为: X=>Y (规则支持度,规则置信度,规则提升度),其中X为规则前项,Y为规则后项,规则支持度,规则置信度及规则提升度是规则的评价指标。
规则支持度是该项集出现的次数除以总的记录数。其意义在于度量项集在整个事务集中出现的频次。我们在发现有价值的规则时,会更多的关注频次高的项集。
ConfidenceX=>Y=SupportX∪YSupportX
規则提升度反映X的出现对Y出现的影响程度,一般大于1才有意义,表示X的出现对Y的出现有促进作用,故规则提升度越大越好,其表达式如下:
LiftX=>Y=SupportX∪YSupportX*SupportY
三、关联规则的应用
置信度和支持度阀值的设定直接影响到关联规则结果输出的数量。若置信度和支持度的阀值设置得越小,生成的关联规则越多,而关联规则所体现的项集之间的关联更倾向于偶然;若置信度和支持度的阀值设置得太大,就可能无法得到关联规则,因此需要合理地设置阀值。若计算出的规则的置信度大于或等于预先给定的最小置信度阈值,且支持度大于或等于预先给定的最小支持度阈值,那么这条规则就被保留下来,否则删除。
得出符合条件的全部关联规则中可能存在冗余的规则,即规则1实际上包含了规则2,且规则2与规则1的提升度相等,或低于规则1的提升度,由此认定规则2是冗余的。因此我们通过生成关联规则子矩阵并删除其每列元素和大于等于1的列将冗余的规则删除,得到最终的关联规则并根据提升度降序排序。
由于提升度大于1的才有意义,因此,本文提取提升度大于1的三条关联规则进行分析讨论。
本文做了两个关联分析,第一个关联分析选取大学生对现状满意度为后项,以大学生平均学分绩点为前项;第二个关联分析是以大学生毕业后半年月收入为后项,以大学生平均学分绩点为前项。
1.现状满意度跟平均绩点的关联规则
首先进行第一个关联分析,选取最小置信度阈值为30%,且最小支持度阈值为0.4%,冗余处理后剩下3条关联规则如表1。
图1 现状满意度与平均绩点的关联规则泡泡图
图1中圈的大小表示支持度的值,支持度代表两种事物同时出现的概率。颜色的深浅代表了提升度的大小。由图可知,绩点[1,2)和[3,4)范围内的毕业生与对现状不满意关联程度较高,绩点[2,3)范围内的毕业生与对现状满意关联程度较高。
从表1看到,三条关联规则的提升度均大于1,说明这三个规则中,一个学生出现该平均学分绩点时,他相对于其他绩点的学生对自己的现状出现该满意度的可能性较大,而且提升度越大,代表这条关联规则越有价值。
第一个关联规则:平均学分绩点=[3,4) =>对自己的现状是否满意=不满意的支持度为0.1633,这说明2014届毕业生当中有16.33%的毕业生平均绩点在[3,4)范围内时,同时会对自己的现状感到不满意;它的置信度是0.3668,说明平均绩点在[3,4)范围内的毕业生中有36.68%的毕业生确实对自己现状感到不满意。
第二个关联规则:平均学分绩点=[2,3) =>对自己的现状是否满意=满意的支持度为0.2933,这说明2014届毕业生当中有29.33%的毕业生平均绩点在[2,3)范围内时,同时会对自己的现状感到满意;而在2014届平均绩点为[2,3)范围内的毕业生中,对自己的现状感到满意的毕业生占55.80%,即该规则的置信度为0.5580。
第三个关联规则:平均学分绩点=[1,2) =>对自己的现状是否满意=不满意的支持度为0.0097,这说明2014届毕业生当中有0.97%的毕业生平均绩点在[1,2)范围内时,同时会对自己的现状感到不满意;而在2014届平均绩点为[1,2)范围内的毕业生中,对自己的现状感到不满意的毕业生占35.29%,即该规则的置信度为0.3529。
平均学分绩点在[3,4)范围内的会对现状感到不满意的原因也许是要求过高,成绩好的都希望找到一份好工作或者好的出路,但个人感觉并没有很好,因此对现状感到不满意。因此,在对毕业生进行就业指导时,可按绩点进行分批培训给不同层次的学生进行对应的辅导,或者适当对平均学分绩点在[1,2)和[3,4)范围内的学生加强辅导、劝导以及指导,增强对现状的满意度。 2.月收入跟绩点的关联规则
注:月收入1类为(0,2500], 2类为(2500,3500], 3类为(3500,4500], 4类为(4500,5500], 5类为5500以上
從表2看到,在设定最小支持度的阀值为0.004,最小置信度阀值为0.1的条件下,七条关联规则的提升度均大于1。经过冗余处理的数据,关联规则并未有所减少,冗余前后都包含10条关联规则,说明该数据并没有存在冗余的规则。
第一条关联规则:说明在2014届毕业生中有0.49%的毕业半年后的月收入属于5类,同时平均学分绩点落在[1,2)的范围内。且在平均绩点在[1,2)范围内的毕业生中有17.65%的毕业生月收入属于5类。相对于其他规则,其可能性较低,属于“令人费解的规则”,其价值不值得深入分析。
第四条关联规则:说明在2014届毕业生中有13.16%的毕业半年后的月收入属于3类,同时平均学分绩点落在[3,4)的范围内。且在平均绩点在[3,4)范围内的毕业生中有29.56%的毕业生月收入属于3类。
第五条关联规则:说明在2014届毕业生中有17.22%的毕业半年后的月收入属于2类,同时平均学分绩点落在[3,4)的范围内。且在平均绩点在[3,4)范围内的毕业生中有38.69%的毕业生月收入属于2类。
第四条关联规则和第五条关联规则均属于发生概率较高的规则,说明在校成绩较为良好的学生出来就业时的月收入均属于中等水平,且该种现象普遍存在于本校。
从整体看,整体的支持度均较高,由此可知,毕业生的平均学分绩点在一定程度上影响了毕业生半年后的月收入,并可看出,毕业生的平均学分绩点越低,则毕业生毕业半年后的月收入就越低的趋势。另一方面,说明我校在开展学生工作时应给予学生必要的思想工作,适当地跟学习成绩较差的学生进行沟通,使其可以应对较为严峻的就业形势。
四、结论及相关建议
通过关联分析,我们分别研究了绩点与现状满意度的关系,以及月收入与绩点的关系。通过设定最小阀值消除冗余,提取提升度大于1的关联规则,我们得出以下结论,并分别给出相应对策:
(1) 平均学分绩点在[3,4)的毕业生普遍对现状感到不满意,在2014届的毕业生中达到16.33%的比例。对此,在对毕业生进行就业指导时,可按绩点进行分批培训给不同层次的学生进行对应的辅导,或者适当对平均学分绩点在[1,2)和[3,4)范围内的学生加强辅导、劝导以及指导,增强对现状的满意度。
(2)毕业生的平均学分绩点在一定程度上影响了毕业生半年后的月收入,毕业生的平均学分绩点越低,则毕业生毕业半年后的月收入就越低的趋势。其中平均绩点落在[3,4)的毕业生中,毕业后的月收入多数落在2类和3类,其在2014届的毕业生中分别达到13.16%和17.22%的比例。说明我校在开展学生工作时应给予学生必要的思想工作,适当地跟绩点落在[3,4)的学生进行沟通,提供就业方面的相关辅导,使其可以应对较为严峻的就业形势。
(作者单位:北京理工大学珠海学院数理与土木工程学院)
北京理工大学珠海学院大学生创新创业训练计划项目省级课题
参考文献:
[1]王星等译.大数据分析:方法与应用[M],清华大学出版社,2013.
[2]陈健等译.R语言与数据挖掘(最佳实践和经典案例)[M],机械工业出版社,2014.
[3]李洪成等译.机器学习与R语言[M],机械工业出版社,2015.
[4]范明等译.数据挖掘基础教程[M],机械工业出版社,2009.
[5]范明等译.数据挖掘(概念与技术)[M],机械工业出版社,2012.
[6]范明等译.数据挖掘导论(完整版)[M],人民邮电出版社,2013.