论文部分内容阅读
近年来,随着信息技术的快速发展,数字化校园建设已经在国内高校基本实现。但同时也产生并存放了大量的数据信息。有效地挖掘学生在校行为信息,有利于高校工作人员的管理。高校贫困生的认定和资助工作对于高等人才的培养,减轻贫困生家庭生活负担是非常重要的。精准教育扶贫能够让真正有困难的学生得到资助,在校顺利完成学业、不因教育导致家庭的贫困,帮助学生脱贫也是国家政策之一。对于海量信息的数据挖掘,单一节点的数据分析效率已经不能满足需求,而且传统的数据挖掘算法也存在很多的缺陷。本文基于Hadoop平台的高校贫困认定的方法,在分别对于Hadoop框架、数据挖掘算法进行分析研究之后,提出了以某高校一卡通消费数据和上网日志数据为研究对象,采用Canopy-K-means聚类算法,完成了对学生在校行为的聚类分析,得出贫困生类别,为高校贫困生认定的工作人员提供辅助决策作用。本文主要对以下三个方面进行了研究:第一、传统的数据挖掘算法在实际工作的应用当中因其存在的缺陷可能会导致挖掘效果并不理想,对数据的分析会出现偏差。对此,本文提出了基于Canopy-K-means算法。而Canopy-K-means算法是本文提出的一种对传统Kmeans聚类算法的改进,能够有效解决传统K-means算法初始k个中心点的选取以及异常点难处理的问题。并应用于高校贫困生预测当中,对学生进行聚类分析,得出贫困生类别,帮助高校工作人员进行贫困生认定工作。第二、数字化校园产生并存放了大量的数据信息,单机数据分析难以完成海量日志的挖掘工作,为了能高效处理数据,本文设计并实现了基于Hadoop平台的数据分析系统,用以挖掘学生在校行为数据信息。系统架构可分为数据预处理模块、数据挖掘与存储模块。其中数据预处理模块主要是对数据进行过滤、筛选、提取的工作;数据挖掘模块主要是基于数据预处理提取的特征进行数据建模,使用Canopy-K-means算法进行并行化聚类挖掘,得出贫困生类别。第三、通过对一卡通消费数据和上网日志数据进行统计分析,有助于帮助学校学生管理工作人员对食堂和网络的管理。提取贫困生特征数据集,使用Canopy-K-means算法和K-means算法进行单机对比实验,并使用本文算法在不同多个机器上进行集群加速比实验。实验结果表明了Canopy-K-means算法相较于K-means算法在单机上有良好的性能,并且应用在集群中也能很好的表现出算法的性能。