Web挖掘研究

来源 :电脑知识与技术(学术交流) | 被引量 : 0次 | 上传用户:xyhnet
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:随着网络的飞速发展,Web挖掘技术已成为一个研究热点。本文就Web挖掘与相关研究进行了对比,介绍了Web挖掘的概念、分类及步骤,最后给出了Web挖掘的研究方向。
  关键词:Web挖掘;数据挖掘;信息检索
  
  随着数字化信息时代的到来,网络日渐成为人们获得信息的重要途径。然而网络中信息量巨大且分散无序,Web用户经常发现难以找到其所需的信息,造成“信息过载,知识匮乏”[1]的现状。通用搜索引擎给人们提供了进行信息检索的方法,但也存在查准率不高、查全率不能保证等问题。Web挖掘技术正是应这一需求而出现的一项新技术。人们运用Web挖掘技术,寻找网络中有趣的、潜在的、有用的模式或隐藏的信息,并利用这些信息加快用户检索的效率,从而使网络资源更好的为人们服务。
  
  1 Web挖掘定义与相关研究
  
  1.1 Web挖掘的定义
  
  Web结构挖掘的基本思想是将Web看作一个有向图,它的顶点是Web页面,页面间的超链接就是有向图的边。然后利用图论对 Web的拓扑结构进行分析。这种思想源于引文分析,即通过分析一个网页链接和被链接数量以及对象来建立Web自身的链接结构模式。在Web结构挖掘领域最著名的两个算法是:PageRank算法和HITS算法。它们的共同点是使用一定方法计算Web页面之间的超链接质量,从而得到页面的权重。
  2.3 Web使用记录挖掘
  Web使用记录挖掘又称为Web日志挖掘,主要目标是从Web的访问记录中发现感兴趣的模式;分析不同Web站点的访问日志可以帮助人们理解用户的行为和Web结构,从而改进站点的结构,或为用户提供个性化的服务。Web使用挖掘的基本流程包括四个阶段:数据预处理、挖掘算法实施、模式分析、可视化。
  
  3 Web挖掘的过程
  
  Web挖掘的处理流程[5]包括如下四个步骤:资源发现、信息选择和预处理、模式发现、模式分析。
  1)资源发现
  网络爬虫在线收集Web文档、网站的日志等数据,并从中得到有用的数据。
  2)信息选择和预处理
  剔除Web资源中无用信息并将信息进行必要的整理,如Web文档中自动去除广告连接、去除多余格式标记、英文单词的词干提取、高额低频词的过滤、汉语词的切分等。
  3)模式发现
  自动进行模式发现。可以在同一个站点内部或多个站点之间进行,以自动发现Web站点的共有模式。
  4)模式分析
  验证、解释上一步骤产生的模式,并进行可视化。
  
  4 Web挖掘研究方向
  
  Web挖掘的应用非常广阔,不但涉及页面信息的提取、站点的分析和设计,而且在基于Internet 的电子商务方面也有很好的应用前景。
  今后几年Web挖掘研究的主要方向有:(1)Web知识库的动态维护、更新,各种知识和模式的融合、提升,以及知识的评价综合方法;(2)基于Web挖掘和信息检索的、高效的、具有自动导航功能的智能搜索引擎相关技术的研究;(3)研究和开发基于Web的多层数据体系结构和智能集成系统,提供相应的查询语言,优化和维护机制;(4)现有的数据挖掘方法与技术的改进及其向Web数据的扩展,挖掘算法的适应性和时效性的研究;(5)Web挖掘的相关技术在电子商务领域的应用研究等。
  
  5 总结
  
  随着网络的飞速发展,Web挖掘技术已成为一个研究热点。本文就Web挖掘与相关研究进行了对比,介绍了Web挖掘的概念、分类及步骤,最后给出了Web挖掘的研究方向。
  
  参考文献:
  [1]Raymond Kosala,and Hendrik Blockeel.Web Mining Research: A Survey[J]. SKGKDD Explorations,July 2000.
  [2] 韩家炜,孟小峰,王静,等.Web挖掘研究[J].计算机研究与发展,2001,38(4):405-410.
  [3] Jiawei Han,Micheline Kamber 。范明译。数据挖掘概念与技术[M]。北京,机械工业出版社,2000.
  [4] 王继成,萧嵘,孙正兴,等.Web信息检索研究进展[J].计算机研究与发展,2001(2).
  [5]Yuefeng Lia,Ning Zhong.Web mining mobel and its applications for information gathering[J].Knowledge-Based Systems,2004(17):207-217.
  收稿日期:2009-04-28
  作者简介: 谢海艇(1982-),男,山东淄博人。研究方向:信息检索、数据挖掘等。
其他文献
摘要:高职院校体育课堂教学作为促进学生身心健康发展的平台,加大高职院校体育课堂教学改革策略的研究有着非常重要的意义。基于此,本文以高职院校体育课程改革为研究的主题,在分析高职院校体育课堂教学改革重要性的基础上,以南华工商学院体育课程为例,提出了高职院校体育课堂教学的应用策略。  关键词:高职院校;体育课程;改革;南华工商学院  中图分类号: G807.01 文献标识码:A 文章编号:2095-28
【摘要】随着国家教育教学改革的推进,使得社会对高校体育专业人才要求也发生了相应的变化。本文通过对高校体育专业大学生的就业能力培养现状及高校体育专业毕业生就业能力培养中存在的问题进行分析,并针对这些问题提出了科学安排专业结构及课程设计、创新教学策略和健全评析制度及提高自身就业竞争力等策略,希望对我国高校体育专业学生的就业率提高有所帮助。  【关键词】体育专业;就业能力;高校  中图分类号:G8文献标
摘 要:运用文献资料法、录像观察法和数理统计法,对中国队在2013年和2015年男篮两届亚锦赛队员选拔标准、进攻数据指标和防守数据指标进行统计对比分析,研究结果表明:2009年姚明的退役后,中国男篮整体水平有所下降;宫鲁鸣接管中国男篮以来,重用年轻队员,苦练基本功,重视防守,强调整体篮球思想,使中国男篮在攻守方面都取得进步,尤其防守方面进步更为明显.建议:向韩国男篮学习提高在高对抗下投篮的稳定性;
摘要:“微课”是当代教育模式改革的新趋势,利用互联网平台实现教育信息化。国外对“微课”教学也形成了广泛的认知,在职业教育中普遍推广微课课程。结合国内外发展趋势,本文介绍了微课教学理论内涵,对高职体育教学改革提出科学意见。  关键词:微课;教学理论;高职体育;应用  中图分类号: G80-32 文献标识码:A 文章编号:2095-2813(2016)06(b)-0000-00  基于传统教学模式下,
摘 要:随着人们生活水平的提高,人们对健康的认知度也增高,然而体育设施不足的现象,却在一定程度上阻碍了人们健身活动的正常开展。高校体育设施作为高校体育教学的重要部分,在承担高校体育教学训练以及课外活动任务的同时,也应承担一定的社会责任。因此,高校体育设施在满足本校教学需求的基础上,已适当对外开放,来缓解目前社会体育设施不足的现象。  关键词:高校 体育设施 对外开放  中图分类号:G807.4 文
摘 要:体育教师是体育教学活动中起着非常重要的作用,他是引导学生能够很好的进行体育活动的引导者,是体育教学活动中的主导者。教育是使我国不断进步的动力,也是根本。所以我们应该重视教育事业的建设,而教育事业的建设又需要靠从事教育事业的老师的努力,如何培养专业水准特别高的老师是我们教育事业需要努力的一个重要方向。只有老师的整体水平都很高才可以培养出具有高综合素质的学生。本文通过对鹤壁市调查,通过对农村中
摘 要:体育课是体育教学的基本组织形式,是由体育教师和学生共同参与的教与学的双边活动。身体练习、运动负荷、开放性的特点使得体育课与文化课之间存在很大的差异。文章采用文献资料法并结合自身的体育课堂教学经验,为了高效地完成体育课堂教学目标,实现体育教学效益最大化,对课前准备、专业的语言和标准的示范、教材重难点、课堂组织、课堂氛围五个方面进行研究,并提出理论建议使体育课更加的完善合理。  关键字:体育课
摘要:Ad Hoc网络是一种新型、多跳、自组织的无线网络,借助于多跳转发技术来弥补无线设备的有限传输距离,网络节点能够动态地、随意地、频繁地进入和离开网络,从而拓宽网络的覆盖范围,为用户提供各种服务、传输各种业务。文中介绍了Ad Hoc网络的发展历史、概念、主要特点、国内外的研究现状及Ad Hoc网络的应用,并指出了Ad Hoc网络管理面临的问题。   关键词:Ad Hoc;无线网络;自组织;多跳
摘要:提出了一种基于Agent的分布式入侵检测系统模型,实现HIDS和NIDS的互补,充分利用Agent自身的独立性与自主性,有效解决了传统集中式处理的单点失效问题,同时降低各个部件之间的相互联系,实现了入侵检测系统计算的分布化,提高了入侵检测系统的性能及其可靠性,具有良好的扩展性,能更好的满足大规模网络环境的要求。  关键词:入侵检测;Agent;网络安全  中图分类号:TP393文献标识码:A
摘要:叙述了VirtuoZoAAT进行空中三角测量的工作流程和主要的步骤,并通过VirtuoZoAAT进行空三处理后,导入到VirtuoZo进行了焦作地区DOM的制作。  关键词:VirtuoZoAAT;自动空三;正射影像  中图分类号:TP317文献标识码:A文章编号:1009-3044(2009)22-0000-00    VirtuoZoAAT是国际上著名的空三加密软件,它具有半自动量测控制