基于Hadoop平台的高校贫困生认定的研究与实现

来源 :北京工业大学 | 被引量 : 1次 | 上传用户:Gzliao2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着信息技术的快速发展,数字化校园建设已经在国内高校基本实现。但同时也产生并存放了大量的数据信息。有效地挖掘学生在校行为信息,有利于高校工作人员的管理。高校贫困生的认定和资助工作对于高等人才的培养,减轻贫困生家庭生活负担是非常重要的。精准教育扶贫能够让真正有困难的学生得到资助,在校顺利完成学业、不因教育导致家庭的贫困,帮助学生脱贫也是国家政策之一。对于海量信息的数据挖掘,单一节点的数据分析效率已经不能满足需求,而且传统的数据挖掘算法也存在很多的缺陷。本文基于Hadoop平台的高校贫困认定的方法,在分别对于Hadoop框架、数据挖掘算法进行分析研究之后,提出了以某高校一卡通消费数据和上网日志数据为研究对象,采用Canopy-K-means聚类算法,完成了对学生在校行为的聚类分析,得出贫困生类别,为高校贫困生认定的工作人员提供辅助决策作用。本文主要对以下三个方面进行了研究:第一、传统的数据挖掘算法在实际工作的应用当中因其存在的缺陷可能会导致挖掘效果并不理想,对数据的分析会出现偏差。对此,本文提出了基于Canopy-K-means算法。而Canopy-K-means算法是本文提出的一种对传统Kmeans聚类算法的改进,能够有效解决传统K-means算法初始k个中心点的选取以及异常点难处理的问题。并应用于高校贫困生预测当中,对学生进行聚类分析,得出贫困生类别,帮助高校工作人员进行贫困生认定工作。第二、数字化校园产生并存放了大量的数据信息,单机数据分析难以完成海量日志的挖掘工作,为了能高效处理数据,本文设计并实现了基于Hadoop平台的数据分析系统,用以挖掘学生在校行为数据信息。系统架构可分为数据预处理模块、数据挖掘与存储模块。其中数据预处理模块主要是对数据进行过滤、筛选、提取的工作;数据挖掘模块主要是基于数据预处理提取的特征进行数据建模,使用Canopy-K-means算法进行并行化聚类挖掘,得出贫困生类别。第三、通过对一卡通消费数据和上网日志数据进行统计分析,有助于帮助学校学生管理工作人员对食堂和网络的管理。提取贫困生特征数据集,使用Canopy-K-means算法和K-means算法进行单机对比实验,并使用本文算法在不同多个机器上进行集群加速比实验。实验结果表明了Canopy-K-means算法相较于K-means算法在单机上有良好的性能,并且应用在集群中也能很好的表现出算法的性能。
其他文献
随着互联网的飞速发展,人们也由以前的被动接收信息,逐步向主动参与转变,更乐于通过微博、博客、论坛等互联网平台公开发表自己的看法与观点。互联网每天都会产生大量的非结
随着互联网的飞速发展,多媒体视频的数据量呈现快速增长,视频的内容结构也正趋于复杂,如何有效存储和管理这些视频数据显得尤为重要。视频摘要是对完整视频的概括,在保留原始信息的同时压缩了视频长度。一种有效的视频摘要提取技术能够大大降低视频的存储空间,提高视频分析的效率。本文主要研究视频摘要技术中镜头分割和关键帧提取技术。主要工作如下:1.提出一种结合颜色和深度信息的突变镜头边界检测算法,针对现有突变镜头
污水处理厂作为一项最基础的公共设施,近些年来其建设和运营广泛采取PPP模式,对污水处理PPP项目进行绩效评价研究,可以使项目实施和运营过程中的绩效水平在一定程度上得以提
随着人口老龄化时代的到来,年长员工的比例逐步增加,劳动年龄人口表现出老化趋势。面对未来年轻劳动力短缺、劳动力老龄化的发展趋势,如何保留、开发和管理年长员工的人力资
亚硫酸盐(SO32-)、半胱氨酸(Cys)和同型半胱氨酸(Hcy)是一类含有硫原子的生物活性硫小分子物质,这类物质普遍存在于生物体内,参与生物体内的各项生理功能,维持体系平衡。但是,当
本文探讨了一种特殊类型的土地抵押形式——"土地分割抵押";该类型在实际工作中运用较多,各地操作方式不一,文中观点仅为个人对相关政策的理解而作的分析。
近年来,三维(Three Dimensional,3D)多媒体应用已经逐渐走进了人们的日常生活中,例如3D电影和虚拟现实应用等。人们在享受着3D图像以及视频内容带来的便利的同时,对图像和视
近年来,我国在国防、能源、交通、通信等领域的大型基础设施建设显著增长,基建规模达到世界第一。这些大型基建的服役时间较长,不可避免的会受到结构老化、自然灾害和人为破
传统的视频编码技术已经很难改进编码效率,而视频的最终接收对象是人眼和大脑,那么我们可以从视觉感知的方向来改进编码技术。本文提出一种基于空时域感知特性的失真模型,为
放射治疗在肿瘤治疗中的作用和地位日益突出,已成为治疗恶性肿瘤的主要手段之一,其利用高剂量放射束对患者病灶靶区进行照射从而杀死癌细胞。然而人体大部分器官组织都伴随呼