Web挖掘开辟了解大学生思想新途径

来源 :教育界 | 被引量 : 0次 | 上传用户:lycan95
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘 要】随着时代的发展,信息化和网络化的普及,网络成为大学生生活的一部分,但是由于网络的虚拟性和隐蔽性,也使得网络成为大学生思想政治教育的盲区和死角。本文通过对Web挖掘的介绍,Web日志挖掘主要流程的简述,从理论上分析如何利用Web挖掘了解大学生思想动态等情况,为探索新形势下做好大学生思想政治教育提供新思路。
  【关键词】网络 思想政治教育 Web挖掘 日志挖掘
  
  一、应用背景
  随着信息化、网络化的普及,人们的生活观念和思维观念发生了重大的变化,这种变化在当前大学生身上表现得尤为强烈。校园网络建设的日趋完善,个人计算机、高性能手机等智能电子设备的普及应用,使得网络成为大学生不可或缺的学习助手、生活帮手和娱乐场所。但是网络是一把双刃剑,在造福学生的同时,也产生不少问题:1. 负面信息对学生思想的腐蚀侵害。互联网是“自由的网络”,各种信息都可以不受限制地在网络上发布,其中不乏反动舆论、低级趣味等“危险”信息,虽然政府已经下大力治理,但是还是有“漏网之鱼”进入学生的视野,而这种情况教育管理者很难发现并加以处理;2. 网络的隐蔽性使得学生的网络活动脱离了教育管理者的视线范围。网络特有的隐蔽性和虚拟性让学生的网络活动很难被旁人了解,成为一个“独立”的空间,也成为管理上的死角;3. 在网络化背景下,传统的思想政治工作在内容、手段和方式上都缺乏吸引力,会让学生感觉枯燥和乏味,使得教育管理者很难与之进行有效的沟通和交流,从而无法较全面地了解学生的思想动态和性格特征。这些问题都给思想政治工作造成了很大的被动,如何改变这种情况呢,还要从网络入手。
  二、基本概念
  随着网络技术的快速发展与网络信息的迅猛增长,互联网成为世界上规模最大的公共数据源,并且还在不断地增加和变化,如果直接从互联网上去探寻学生的网络使用情况等信息,那将是一项十分困难的工作,并且成效也是微乎其微的。因此需要引入一项技术——Web挖掘。
  Web挖掘是数据挖掘在互联网领域的一个应用。数据挖掘又被称为数据库知识发现,它通常指从数据源(如数据库、文本、互联网等信息资源)中探寻有用的模式或知识的过程。Web挖掘就是以互联网为数据源的数据挖掘。根据挖掘对象的不同,Web挖掘可以分为三类:
  Web结构挖掘:是从表征Web结构的超链接中寻找有用的知识;
  Web内容挖掘:是从网页内容中抽取有用的信息和知识;
  Web日志挖掘:是从记录每位用户浏览网页等情况的网络使用日志中挖掘用户的访问模式。
  在本文中,主要阐述Web日志挖掘的工作流程及其对于大学生思想管理工作的实际作用,所采用的数据源是记录用户上网浏览过程等信息的Web使用日志。日志数据按照采集位置的不同,分为三类:服务器端日志、代理服务器端日志和客户端日志。我们根据实际需要,主要是对客户端日志进行挖掘,即通过对单个用户访问日志的分析,获得其使用习惯、兴趣爱好、性格特点等。这通常被称为个性挖掘,常用在用户建模、提供个性化服务、智能商务等方面。与个性挖掘相对应的是共性挖掘,它主要通过对全体用户访问日志及服务器端日志等的挖掘,来发现共有的访问规律,常用在网站系统改进优化等方面。
  三、工作流程
  Web日志挖掘主要分为四个步骤:数据收集,数据预处理,数据挖掘处理,数据后续处理。
  数据收集:在这个阶段,系统将自动收集指定的客户端日志、防火墙日志、认证机制日志以及部分的服务器日志和代理服务器日志,这些日志详细描述了访问者访问站点时浏览的内容信息、每个网页的驻留时间、链接点击情况、网站互动信息等,通过这些信息,我们就可以粗略地知道学生做了什么。这只是获取的表面信息,通过后续的挖掘我们能发现更多深层次的信息。
  数据预处理:这个阶段的任务就是把得到的日志文件转换成数据挖掘所需要的事务性数据(例如把一些后缀名为txt、log的文件转化为数据库文件),一般要经过四个必要的步骤:(1)数据清洗,清理日志中和挖掘任务不相关的数据项。如删除具有.gif、.jpg等后缀的文件记录。(2)用户识别,从各种日志文件中识别出哪些记录是同一用户产生的,并且归类处理。大部分的校园网登入都有认证机制,学生无论使用公用计算机还是个人计算机,都有唯一的个人识别码,从而确保挖掘结果的用户相关性。(3)会话识别。会话是一个用户一次访问一个Web网站时所浏览的所有页面的集合。会话识别是指在一段较长时间跨度的日志记录内,识别一个用户对某一Web网站的访问序列。通常,设定一个时间阈值(如30分钟),如果一个用户前后两次访问同一网站的时间差大于这个阈值,就认为是一次新会话。(4)路径完善。由于各种原因,有时候用户的访问行为没有完全记录在相应的访问日志中。因此,需要补全访问日志中的此类路径信息,以便挖掘结果能够更好地反映用户的访问模式。
  数据挖掘处理:就是利用各种挖掘技术对这些事务性数据进行信息挖掘的过程。这些技术包括统计分析、数据挖掘、机器学习和模式识别等领域中已开发的方法和算法,这里介绍几种本文相关的技术:
  统计分析。这是最常用的方法,通过分析可以获取不同种类的统计分析结果,如用户在某页面上的驻留时间,用户浏览内容统计,最频繁访问页等等。这可以了解用户的上网目的,兴趣爱好等。
  序列模式。在以时间为序的会话集合中,序列模式主要用于发现页面(组)依照时间顺序出现的内在规律。有时在特定的事务中(如网络课堂,在线测试等),通过序列模式分析,能够反映出用户的部分性格特征。
  聚类和分类。聚类是将具有相似特征的对象聚在一起,形成一个簇。在Web日志挖掘中,有两种聚类:用户聚类和页面聚类。用户聚类就是把具有相似浏览模式的用户聚成一簇。页面聚类是要将具有相关内容的页面群组归为一簇。分类则是将一个对象(用户或者是事务)分到事先定义好的类中。在Web日志挖掘中,分类可用于為一类特定用户建立简档,抽取并选择最能描述这类用户的特征。通过聚类和分类,可以将学生根据兴趣爱好、性格特征等情况自动分类,方便后续管理工作的开展。
  数据挖掘后续处理:这个阶段主要工作就是根据具体的实际应用,过滤掉挖掘得到的那些没有用的信息,把有用的规律和信息转化为能被人理解的知识。这个过程一般要经过反复的筛选和迭代才能完成:数据挖掘阶段发掘出来的信息,经过评估可以确定出存在冗余或者无关信息,则将其删除;不满足用户要求的信息,则需要退回到挖掘过程的前一阶段,重新选择数据,采用新的数据变换方法,设定新的参数,甚至换其他的一种挖掘算法,再进行挖掘,通过不断的反复,迭代,最终得出合理的结果。Web日志挖掘最终是面向用户的,因此最后要把挖掘出来的知识进行可视化处理,或者转换成用户易与理解的知识表示,并加以解释。
  四、实现功能
  在当前条件下,通过对Web日志的数据挖掘,我们的管理工作可以有以下的提高:1. 能较为全面地掌握学生上网在干什么,浏览网站是在关注什么,特别是在一些特殊时期,能够从中了解学生的观点,想法;2. 进一步了解学生的兴趣爱好、视野的宽广性等,可以发现一些平时无从知晓的特长技能,发掘出平时默默无闻的“能人”;3. 通过对学生访问网站工程中对各个网站的浏览细节(包括浏览内容、驻留时间、浏览方式等)、网站资源的运用、上网时间等信息的综合、深入、长期地分析,结合比对预先建立的学生性格模型,我们可以更为清晰地了解学生的性格特征;4. 通过对全局信息的掌握,可以了解学生群体总体的思想动态,对于热点事件的关注度和观点,以提高思想政治工作的有效性和针对性。
  通过Web挖掘这条新路子,我们能够更加准确地去认识学生,理解学生,教育学生,帮助他们树立正确的世界观、人生观、价值观,更好地成人、成才。
  
  【参考文献】
  [1]Bing Liu等. Web数据挖掘. 清华大学出版社,2009(4).
  [2]郑庆华等. Web知识挖掘. 理论方法与应用. 科学出版社,2010(6).
其他文献
【摘 要】教育在社会的变迁中进步,在改革中向前推进。受社会物质、经济等因素的影响,某些教师礼仪观念已趋于淡薄或是失落,教育失范性行为频繁出现,这种教育“伪美”而失真实,为教育带来许多负面的影响。基于此,文章试从“伪美”教育的概述出发,浅谈教师礼仪的重要性及如何才是符合教师身份的礼仪规范。  【关键词】“伪美”教育 重要价值 礼仪规范2014年“两会”期间,“去年每三天曝光一起性侵儿童案”的新闻引起
目的了解胰腺肿瘤患者围术期的心理健康状况,探讨护理干预对胰腺肿瘤患者围手术期的影响。方法选取我科收治的胰腺肿瘤患者35例,在围术期内实施综合护理干预措施,采用心理健康症
校园文化建设是提高学生综合素质,引导、激发、维持学生创业的重要举措。本文从校园文化建设及学生创业的内涵出发,分析校园文化建设的内容及作用,探讨校园文化建设对学生创业的
本文将从无线传感器网络在煤矿环境信息、设备信息、预警决策、救援保障系统中的三种运用进行探讨,希望能够为煤矿安全智能监控系统提供参考。
【摘 要】所谓“正能量”,指的是一切给人以向上、希望、追求,促使人行动的动力和情感。新形势下,大学生思想政治教育工作的有效推进和发展创新亟需充足的“正能量”。因此,在大学生思想政治教育工作中,挖掘优秀的“正能量”资源,加强和传递“正能量”教育,从教育内容、教育机制两方面入手,提高大学生思想政治教育工作的有效性。  【关键词】大学生 思想政治教育 正能量  “正能量”本是物理学的专有名词,意指以真空
本文基于NB-IoT技术、5G高速网络和云技术的应用,建立污染源在线监测海量数据的存储、汇总、应用的综合云系统,然后通过智能终端,实现随时随地管控污染源污染物排放情况。
本文介绍了使用VB6.0和SQL Server2005设计学生学习能力评价系统的主要技术,并讨论了系统的主要功能。该系统利用计算机进行学生学习能力评价代替了原有的人工管理方式,节省大量
【摘要】随着教育信息化的飞速发展,信息化教学手段、翻转课堂教学模式已经应用到多个学科,运用信息化手段来实现翻转课堂与体育教学的高度融合,提高学生学习效果,研究在实际应用中应注意的问题。实践表明,翻转课堂对推进学校体育教学改革,提高教学效果和教学质量起到了积极推动作用。  【关键词】翻转课堂;五年一贯制高专;体育教学;信息化平台  一、前言  2017年4月21日,国务院教育督导委员会办公室印发了《
目的 探讨采用热敏灸进行辨证施灸对改善胆囊切除术后脾虚型腹泻症状的效果观察。方法 将110例患者随机分为观察组和对照组各55例。观察组在常规治疗基础上,采用热敏灸疗法进