搜索引擎增量式搜集的实现与评测

来源 :计算机工程 | 被引量 : 0次 | 上传用户:mackolxsbou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对传统的周期性集中式搜索(Crawler)的弱点和增量式Crawler的难点,提出预测更新策略,给出判别网页更新的MD5算法、URL调度算法和URL缓存算法,描述系统各个模块的分布式构架的实现,建立测试集数据对算法进行评测。该系统在北大天网搜索引擎上运行半年多,更新周期缩短了20天,变化预测命中率达到79.4%,提高了时效性、扩展性和稳定性。
其他文献
<正> 多硫低聚物生产中存在着原料来源少工艺过程不完善等困难,因此很难提高聚硫密封胶,尤其是y-30m密封胶的产量。提高这类密封胶产量的方法之一是改用一些容易得到,也容易
城市地下综合管廊作为现代化城市一项新型、综合性的市政公用基础设施工程,具有与传统分散敷设模式的城市管网不可比拟的优势,但由于其投资巨大、拆迁困难、收益甚微等而一度
<正> 最近五年问,美国的生胶消耗量实际上处于稳定状态,约为三百万吨/年。据预测,今后五年间,通用橡胶(如丁苯橡胶)的耗胶量增长不大,1987年美国和加拿大丁苯橡胶、顺丁橡胶
新时代,国有企业迎来了新发展、新机遇,其新闻宣传工作面临着一系列新挑战。笔者结合多年工作经验,通过本文探析了国企改革背景下开展新闻宣传工作的重要性,提出了国企新闻宣
本文首先对于博物馆文化产业的特点进行分析,同时对于博物馆文化产业发展的现状进行探讨,最后对于博物馆文化产业发展建议进行研究。希望通过本文,能够为博物馆文化产业发展
档案管理工作对于企业发展而言,具有至关重要的作用。加强档案信息化建设,是档案工作的重要组成部分,是档案部门服务经济社会信息化的具体体现。近年来,企业单位档案管理正逐
皮肤隐球菌感染在近年来逐渐受到重视,占隐球菌感染的10%~15%。长期使用糖皮质激素是皮肤隐球菌的主要病因之一[1]。但同时合并鼻疽奴卡菌感染少见。现报道1例新型隐球菌合并
目的能力比对检验(Proficiency testing,PT)是室间质评的重要方案,通过参加美国病理家学会(College of American Pathologist,CAP)能力比对检验,监控实验室检验能力,确保检测结果
一直以来,政府采购中的垄断行为屡禁不止,《反垄断法》的实施和监管严重受阻是重要原因,因此《反垄断法》在政府采购中的实施地位亟需明确。从法律规定的内容上看,《反垄断法