【摘 要】
:
由于网页数量的快速增长,以及网页内容日新月异的变化,搜索引擎不可能搜索所有的网页,也不能对所有爬行下来的网页进行及时地更新.如何在有限资源下搜索最有价值的网页,对网
论文部分内容阅读
由于网页数量的快速增长,以及网页内容日新月异的变化,搜索引擎不可能搜索所有的网页,也不能对所有爬行下来的网页进行及时地更新.如何在有限资源下搜索最有价值的网页,对网页进行最有效的更新,已成为现代搜索引擎最为关注的问题之一.该文讨论了搜索引擎中网页爬行和更新的理论问题,设计和实现了基于网页重要性的启发式搜索策略以及网页的更新模式.根据网页的权重大小调整对网页的爬行顺序,优先爬行重要网页.利用估算网页变化率的方法,分批地更新网页库中的网页.该文还优化了爬行器的设计,能够更合理快速地爬行网页,提高系统的灵活性,可以在基本模块不改动的情况下,根据搜索引擎不同的应用目的,采用不同的爬行策略.最后,该文阐述了搜索引擎的未来发展方向.
其他文献
近些年来,生物特征识别技术因其良好的安全性越来越多的应用于身份识别。生物识别技术是利用人类自身生理或行为特征进行身份验证的一种解决方案,具有不可复制的特性。人体的生
需求工程是软件工程中最复杂的过程之一,其复杂性来自于客观和主观两个方面.从客观意义上说,需求工程面对的问题几乎是没有范围的.由于应用领域的广泛性,它的实施无疑与各个
三维地形生成技术是虚拟现实领域中的重点研究方向,其主要应用于虚拟战场环境仿真、城市景观规划、虚拟旅游、飞行模拟器训练及3D游戏等众多领域。随着航空航天、卫星遥感技
基于内容的图像检索是信息检索的重要分支,其检索所需的信息是从图像本身提取.它的目标是从海量的数字图像数据中检索出用户需要的图像.如今,它在网络安全、预防犯罪、知识产
遗传异质性(genetic heterogeneity)是生物信息学研究领域中的重要研究方向之一,也是遗传学中普遍存在的现象.因此,国内外很多专家对遗传异质性进行了研究,但是传统的遗传异
电子邮件服务是Internet网络应用中除了http服务之外应用得最广泛的服务.随着Internet的广泛应用,电子邮件也成为人们日常交流中不可或缺的手段.近年来垃圾邮件在互联网上泛
拒绝服务(DoS)攻击日益严重地威胁着Internet安全,而分布式拒绝服务(DDoS)攻击破坏性更大,更难防范。本文介绍了拒绝服务攻击的基本概念和发展情况,通过几种常见攻击工具的
英文识别OCR关键技术包括图像的二值化、文本分割、倾斜校正、单词字符分割、字符特征提取、字符识别以及后处理.相关工作还有字符模板的建立,后处理词典的建立等等.目前英文
随着多媒体技术的广泛应用,需要进行加密、认证和版权保护的声像数据也越来越多。保护数字产品的知识产权和阻止盗版已经成为数字产品和网络应用面临的严峻问题。数字化的声像
词义消歧是自然语言处理中的一个核心问题.现阶段,很多词义消歧的研究大多采用几个有代表性的歧义词作为研究与测试的对象,在实际应用中有一定的局限性,所以该文希望能够针对