基于超链分析的Web排名算法研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:cntele
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
World Wide Web(简称Web)自诞生起,其规模在短短十几年间呈指数级增长。由于Web的存在,人们可以方便得获得大量信息。但同时Web信息的海量性、复杂性、分布性以及非结构性,使人们在利用它来获取自己所需的有用信息时常常不能如意。 Web挖掘技术正是在这样的背景下应运而生。所谓Web挖掘就是利用数据挖掘技术,从Web数据中发现潜在的、有用的模式或信息。Web挖掘目前是数据挖掘领域中一个比较活跃的分支,也是研究和应用的热点。 Web挖掘技术的应用之一就是Web搜索引擎。现在通用的Web搜索引擎可以快速地根据用户查询,返回一组相关的网页,这在很大程度上方便了用户寻找自己感兴趣的东西;但同时,由于搜索引擎缺少对网页的语义分析,导致它提供的网页数量虽然众多,但质量不一定是最好的,或者质量最好的不一定排列在前面,这是搜索引擎仍亟待改进的地方。 自1998年经典的基于超链分析的Web排名算法HITS和PageRank提出以来,很多学者致力于这方面的研究并提出了很多改进算法,而PageRank也成功应用于Google系统。本文的工作主要是在分析和研究HITS算法的基础上,从三个方面展开讨论,对原算法进行改进。 本文首先对经典的超链分析算法HITS和PageRank进行了研究,在对Web超链结构进行了深入分析的基础上,针对HITS算法的缺陷,通过引入权值和调整因子对其进行了改进。实验表明,改进后的算法表现更加出色。 接着文章从Web内容挖掘的讨论入手,通过引入文本分析模型进一步提高算法的精度。这部分工作通过文本分析模型评价Web文档的质量,并在此基础上利用两种方法进一步调整HITS算法,再用实验展示了这些方法的效果。 由于Web搜索服务的对象是Web用户,因此用户的观点显得格外重要。文章最后从Web使用挖掘的相关工作得到启发,通过挖掘用户使用记录来分析页面的受欢迎程度,并以此进一步优化HITS算法。 以上的工作构成了本文的主要内容。当然,要将该项工作深入开展下去,还有很多工作要做,例如算法在内容挖掘和使用挖掘方面,对数据的分析和利用仍不够充分等等。我们相信,这些工作的深入开展,将会使面向主题的Web信息挖掘这方面的研究更加完善,从而更好地为实际应用服务。
其他文献
本文利用MAPGIS提供的强大功能,将地理信息管理和办公自动化相结合,实现满足深圳盐田港集团规划管理部门需要的港区规划管理信息系统。着重研究GIS技术在沿海港口城市特定社会
人脸识别是近年来模式识别、图像处理、机器视觉、神经计算以及认知科学等领域研究的热点课题之一,还受到了工业界的极大关注,并已取得了丰硕的研究成果。人脸识别系统的性能不
实时系统在各领域尤其是嵌入式领域有着广泛的应用,它一般被用在对时间要求非常高的装置上。对于很多实时系统,如果其设计在逻辑、时序方面出现偏差,将会引起严重的后果。随着实
本文在大量调研的基础上,论述了国内外城市地质信息系统数据组织与管理发展状况和趋势,重点论述了当前我国城市地质数据组织与管理技术的发展遇到的问题,而后提出了基于城市地质
本文提出了在客户端采用动态反馈缓冲的算法。该算法的原理是在客户端动态划分一段内存空间作为来自发送端的流媒体的数据缓冲,根据不同网络情况动态改变该缓冲区的大小,使得客
互联网行业的不断发展壮大所带来的数据风暴充斥着人们的生活,特别是由此而带来的商业价值吸引着众多人的眼球,而巨大的商业价值来源于对海量数据的提取分析,但是传统的数据挖掘
本文以湖南省国土资源厅电子政务建设为研究背景,以系统科学理论为指导,综合运用信息学、计算机科学、土地资源管理学等多学科知识,应用软件工程的理论和方法,通过对湖南省国土资
本文论述了LINUX内核结构及其开发实践。 1991年,linus torvalds开发出最初的Linux,这个操作系统适用与基于intel 80386微处理器的IBM PC兼容机。现在,linus依然不遗余力的改
地图能对真实世界进行模拟,是一种高度抽象化、概括化的模型。随着科学技术的不断提高,地图技术的发展也在飞速前进。地图符号作为地图的语言,能直观地表达地理事物和可视化展现
随着计算机的不断普及,互联网的快速发展,人们对传统的教学模式不再满意,而此时网络课程应运而生。传统教学模式以老师为主,老师和学生同时处在教室,老师主动向学生授课,学生则被动