DistanceRank与HITS混合的网页排序算法研究

来源 :东北师范大学 | 被引量 : 0次 | 上传用户:moowoo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机应用的迅速发展,Web的规模呈现爆炸式增长。搜索引擎作为人们网上冲浪必不可少的工具,得到了空前的发展。为了更好的完善搜索引擎的功能和性能,为人们上网时提供更多的方便,也为了更好的实现其商业价值,越来越多的人开始投入到搜索引擎的改进和提高上,作为搜索引擎的核心算法搜索排序算法更是变得炙手可热。为了方便叙述,本文就将搜索排序统称为排序。本文要讨论的就是网页的排序问题。现在的网页排序算法虽多,但各有利弊。考虑到各种算法的长短,我们采用一种取长补短的方法——将两种性质不同的方法进行结合,以获取一种可以尽量扬长避短的新算法。HITS算法作为一种基于查询的排序算法,正受到人们越来越多的重视;而DistanceRank算法作为一种基于强化学习的离线全局排序算法刚被提出不久,有着优异的性能和良好的发展潜力。基于上述考虑,本文将DistanceRank改进成一种基于查询的算法QDistanceRank(Query-dependent DistanceRank),并将这种算法与HITS算法进行结合,得到了另一种算法,我们称之为QDRHITS(QDistanceRank and HITS Algorithm)。本文算法的采用Java语言实现,在实验过程中借助经典PageRank算法对算法性能进行评估。实验结果表明,作为基于查询的排序算法,本文的两种方法在网页排序质量方面要优于经典的HITS算法。
其他文献
群智能方法作为一种新兴的演化计算技术,已成为人工智能领域研究的一个新的分支。粒子群优化算法源于对鸟群和鱼群群体运动行为的研究,是一种新的群体智能优化算法。粒子群算法
随着计算机科学和逻辑学的发展,出现了以描述逻辑为基础的本体模型的概念和建立在此模型之上的本体知识库。知识库是在计算机科学中的数据库的启发下诞生的,目的是把海量的知
当今遥感影像数据在林业资源的管理与预测等方面扮演着越来越重要的角色,在数据量不断膨胀的背景下,如何有效地对遥感数据进行管理是当前最需要解决的问题。但是在林业资源数据中,不仅仅只有遥感数据,森林资源调查数据也是林业数据中重要的数据源,通过将两种资源进行整合,实现数据的综合利用也是未来发展的趋势。通过研究分布式技术与领域分析技术的原理及方法,对于解决遥感数据管理技术上的问题以及平台的搭建有着十分重要的
能源是经济社会可持续发展的物质基础和保障。随着我国经济的快速增长和人民生活水平的不断提高,能源供需矛盾日益突出。企业是能源消耗的主要方面,在保证最大的生产效率的前
学位
在语义Web中,本体发挥着重要的作用。但由于各领域都有自己相应的构建本体标准,本体的建立缺乏统一的标准规范,使得众多本体间存在着系统异构、结构异构、语义异构等问题。本
Web服务作为一种新型的分布式计算模型,具有高度的互操作性、跨平台性和松耦合等特点,得到了世界范围内学术界和工业界的极大关注。但是单个Web服务功能有限难以满足复杂的用户
软件的规模和复杂度越来越高,大大提高了软件漏洞挖掘的难度。人们知道软件的版本更新指示了旧版本中存在某些缺陷或修改,如何开发自动化的程序逆向分析工具用来辅助软件漏洞
学位
语义Web虽发展缓慢但却稳步发展。本体作为语义Web的核心部分受到了广泛关注并且还需寻找一些新的技术来实现本体的发展。为了使语义Web的研究切实可行,毫无疑问,本体映射和
VPN作为一种廉价安全的组网方案越来越受到企业用户的青睐。大多数现有VPN安全技术主要集中于用户身份的验证,以及传输数据保密性和完整性的保护,但是忽略了对客户端计算平台