Web结构挖掘研究

论文部分内容阅读

随着Internet迅速发展，网络经济、注意力经济等新概念的出现，Web挖掘以其巨大的社会效益和极富挑战与机遇的内涵，成为信息科学最引人注目的研究课题。Web网站积累的大量数据蕴涵丰富的信息，利用数据挖掘技术来发现规律，提供个性化服务，将提高商业网站的竞争力，有很大实用意义。Web上页面之间的链接关系为Web挖掘提供了极其丰富的潜在信息。Web结构挖掘是以超链接分析为基础，从链接结构中获取有用的知识，利用这些知识，重新组织结构，使内容逻辑结构更加合理。通过发现超链接的层次属性去探索Web站点的设计，提高搜索质量。本文针对Web结构挖掘开展研究，主要工作如下：1)概述Web挖掘和Web结构挖掘的相关领域发展和技术。 2)分析比较了PageRank和HITS这两种最重要的Web结构挖掘算法。 3)深入研究现有的web结构挖掘系统，并在对其核心算法PageRank和HITS中所存在的问题作了详细分析的基础上提出了自己的改进算法，主要是对每个网页定义这三个参数：PageRank、Authority、Hub，并进行分析，以便我们得到更好的查询结果。 4)最后设计了一个改进Web结构挖掘系统原型，根据实验结果进行分析。

其他学术论文