天网增量搜集子系统的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:gsqj123465
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网中的网页呈几何级数的增长。对搜索引擎而言,及时搜集互联网中新出现和变化的网页是核心工作之一。 本文首先总结了当前有关搜集系统主要问题的解决方法。其后主要介绍天网增量搜集子系统中结点协作、URL调度、网页指纹、网页变化预测、URL缓冲等算法设计实现以及相关算法的性能测试。 在系统设计实现章节中较为详细说明了系统的体系结构和各主要模块的设计实现。通过良好设计,我们保证了系统具有良好的扩展性,并对内存和其它硬件资源利用等做了较好的优化。 为检测算法的有效性,我们跟踪了近50万的网页在一个月内的变化,并以此为测试集。在此测试集上对比了我们系统中实现的算法与其它算法,结论表明系统实现的动态选择算法在预测效果上要优于其它三个独立的算法。 论文最后总结了增量搜集子系统的运行情况:天网增量搜集子系统从2005年10月开始在单结点运行,平均每天提供约100万左右的新出现网页,有效地保证了天网搜索引擎的时新性。
其他文献
面对符合幂律分布的大规模图数据的分析处理,分布式环境下BSP(bulksynchronous parallel)模型的计算效率优于链式MapReduce计算模型的计算效率。而在图计算任务开始前,分布式图
随着网络应用的深入和安全意识的提高,各种安全技术也得到了前所未有的发展和应用。作为信息安全的核心技术,密码技术越来越受到人们的关注。密码技术的应用已不再局限于军事、
基于相似性度量图的半监督学习算法是机器学习领域一个很重要的研究方向。其中,图的顶点集合为数据样本集合,边表示样本之间的相似性,因此基于图的方法具有直观、可解释性。且基
学位
当今人们生活在信息时代,企业、政府和其它机构不同程度的采用了各种业务应用系统。面对这些系统中纷繁复杂的数据、“不合逻辑”的业务规则和变化莫测的用户需求,其构建需要
在软件开发中,会有多种工具被使用来辅助开发人员。服务集成的目标就是将多个工具、以及工具所提供的服务集成到同一系统中以实现特定的业务需求。在集成过程中,由于工具、服务
在嵌入式技术迅速普及的今天,Linux操作系统,由于其开放源代码、高稳定性和低成本等特性,非常适合于嵌入式系统的开发,成为了嵌入式领域里发展最快的操作系统。改进通用Linux
近年来,随着软件应用领域的扩展,软件开发中多种涉众(stakeholder)的参与已经成为一种普遍现象。由于角色和背景的差异,不同的涉众关注于软件开发的不同方面,例如过程、技术、人
电子病历系统不断发展和普及使用,产生了大量的临床医疗数据,其中包含有各类病例临床数据和描述,蕴含着大量的临床医疗知识,对医务工作者诊疗工作的进行和我国基础医疗的发展有重
在学术界、产业界和开源社区的共同推动下,云计算技术迅速发展,逐渐走向成熟,在各行各业得到了广泛的应用。越来越多的应用选择部署到云平台上,以云应用的形式为用户提供即取即用