基于快速相似度的Web结构挖掘的研究

来源 :南京信息工程大学 | 被引量 : 2次 | 上传用户:w_wallace
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着万维网进入人们的生活,网络已成为人们获取信息和资源的主要来源之一。然而如何在具有海量、半结构化或非结构化、动态性和多态性等特征的信息中方便、迅速、准确地检索到用户真正需要的内容已成为数据组织和Web相关领域专家学者关注的焦点。本文首先介绍Web数据挖掘的定义及其三个分类:Web内容挖掘、Web结构挖掘和Web使用挖掘,研究这三类Web挖掘的方法和进行Web数据挖掘的挖掘流程。然后,介绍本文主要研究对象Web结构挖掘,其中以体现网页结构关系的经典算法PageRank算法为研究重点,PageRank算法单纯描述链接之间的关系,没有分析网页中的内容和用户查询主题的相似度,容易发生主题漂移现象,降低搜索准确率。针对PageRank的缺点本文从以下两方面进行改进:(1)以增强搜索准确度为目标,引入文本相似度排序因子。将快速的汉明距离相似度文本相似度方法与PageRank算法结合,以提高与搜索主题相似页面的PageRank值,更精确地描述链接之间的关系,提高检索准确度,减少主题漂移现象。(2)为增强搜索查全率,本文增加检索词的同义词搜索,为此需改进汉明距离相似度算法,在计算过程中增加同义词的匹配,并且严格区分检索词和检索词的同义词,使其在相似度计算上有不同的结果。结合上述两点,本文在PageRank算法的基础上提出快速相似度PageRank算法作为网页排序标准。最后,利用Lucene和Nutch爬虫技术实现以快速相似度PageRank算法为排序方法的搜索引擎。利用从互联网中抓取的大量网页,对快速相似度PageRank算法验证。实验结果表明,在不影响原PageRank算法的情况下,能够得到快速有效的搜索结果,增强搜索的查全率和查准率。
其他文献
医学影像数据所呈现的爆炸式增长及数据挖掘等技术的迅速发展,对医学图像检索技术提出了新的需求。但是,传统的图像检索技术应用到医学图像检索当中,其表现却总是不尽如人意
V.Vapnik领导的AT&Tbell实验室研究小组从上世纪60年代开始就致力于有限样本统计理论的研究,并将这一理论称为统计学习理论(Statistical Learning Theory, SLT)。支持向量机(
20世纪末以来,信息技术的发展迅速,嵌入式系统、无线通信、分布式信息处理技术及微电子机械系统等技术也快速发展起来,具有感知、计算和无线网络通信能力的无线传感器网络(Wi
随着传感技术、定位技术和通信技术的发展,近年来从物理世界中获取信息的系统的研究引起了学术界和产业界的广泛兴趣。例如:传感器网络和全球定位系统GPS,它们从物理世界中采
随着全球信息化的飞速发展,信息网络在人们的日常生活中已占据了十分重要的地位。以往面对面的教学方式已显然不能满足现在社会的需要,逐渐也开始把信息化引入教育领域中,从而打
道路交通标志识别近年来一直是一个研究热点问题。经济社会的发展使道路交通面临诸多瓶颈,人们迫于寻求一种新的技术解决交通安全和阻塞问题,综合机器视觉、图像技术、计算机
随着生物信息学的大力发展,研究者们不断地在探究基因调控规律,而不能深入的理解转录调控规律已经成为研究调控网络的瓶颈。目前,转录因子结合位点识别问题已成为生物信息学
网格计算是近年来信息技术领域的热点研究课题,它是指在动态变化的异构环境中,共享资源和协作解决问题。由于网格具有大规模、异构、动态、分布和自治等特性,在网格计算中如
近年来,随着Internet的飞速发展,网络安全的要求也越来越高。尤其是现在流行的Web服务,对服务器的安全性要求也越来越高。传统的安全保障技术,诸如防火墙、杀毒软件等,虽然可
学位