论文部分内容阅读
World Wide Web(简称Web)自诞生起,其规模在短短十几年间呈指数级增长。由于Web的存在,人们可以方便得获得大量信息。但同时Web信息的海量性、复杂性、分布性以及非结构性,使人们在利用它来获取自己所需的有用信息时常常不能如意。
Web挖掘技术正是在这样的背景下应运而生。所谓Web挖掘就是利用数据挖掘技术,从Web数据中发现潜在的、有用的模式或信息。Web挖掘目前是数据挖掘领域中一个比较活跃的分支,也是研究和应用的热点。
Web挖掘技术的应用之一就是Web搜索引擎。现在通用的Web搜索引擎可以快速地根据用户查询,返回一组相关的网页,这在很大程度上方便了用户寻找自己感兴趣的东西;但同时,由于搜索引擎缺少对网页的语义分析,导致它提供的网页数量虽然众多,但质量不一定是最好的,或者质量最好的不一定排列在前面,这是搜索引擎仍亟待改进的地方。
自1998年经典的基于超链分析的Web排名算法HITS和PageRank提出以来,很多学者致力于这方面的研究并提出了很多改进算法,而PageRank也成功应用于Google系统。本文的工作主要是在分析和研究HITS算法的基础上,从三个方面展开讨论,对原算法进行改进。
本文首先对经典的超链分析算法HITS和PageRank进行了研究,在对Web超链结构进行了深入分析的基础上,针对HITS算法的缺陷,通过引入权值和调整因子对其进行了改进。实验表明,改进后的算法表现更加出色。
接着文章从Web内容挖掘的讨论入手,通过引入文本分析模型进一步提高算法的精度。这部分工作通过文本分析模型评价Web文档的质量,并在此基础上利用两种方法进一步调整HITS算法,再用实验展示了这些方法的效果。
由于Web搜索服务的对象是Web用户,因此用户的观点显得格外重要。文章最后从Web使用挖掘的相关工作得到启发,通过挖掘用户使用记录来分析页面的受欢迎程度,并以此进一步优化HITS算法。
以上的工作构成了本文的主要内容。当然,要将该项工作深入开展下去,还有很多工作要做,例如算法在内容挖掘和使用挖掘方面,对数据的分析和利用仍不够充分等等。我们相信,这些工作的深入开展,将会使面向主题的Web信息挖掘这方面的研究更加完善,从而更好地为实际应用服务。