图像检索中的分布式网络爬虫设计与实现

来源 :南京大学 | 被引量 : 0次 | 上传用户:lcg512
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息的急速增长,传统搜索引擎面临着索引规模、更新速度和个性化需求等多方面挑战。面对这些挑战,适应特定主题和个性化搜索的主题(聚焦)网络爬虫(Topiical Crawler or Focused Crawler)应运而生,用于为人们提供分类更细致精确、数据更全面深入、更新更及时的网络服务。目前的主题爬虫大多是面向文本的,面向图像方面的较少。然而,随着多媒体技术和计算机网络的飞速发展,图像、视频数据呈几何级增长,图像的应用和传播也越来越广泛,如何建立高效的图像检索机制成为目前迫切需要解决的问题之一,建立高效的主题爬虫则成了其中重要的研究课题。   目前大多数搜索引擎都是将世界上的各个网站的数据汇集到一处再进行处理。这种方式需要大量计算机软硬件及网络资源的支持,一般单位很少能负担的起这种运行成本。考虑到网络数据的分布式这一特性,人们希望利用分布于全球的普通PC来抓取数据。借助PC用户提供的空闲运算能力,这种方式会比较经济。更为重要的是,爬虫系统之间的资源共享,可以大量减少网络的负载。为了跟上更新频率,并且不对网络负载造成负担,如何对网站处理采用“就近处理”的方式成为研究人员关注的一个热点。   本文旨在设计和实现一个在健壮性、可扩展性、可控性等各方面都较完善的面向图像的分布式爬虫系统。在实验系统中基于锚文本上下文对图像进行主题相关性判定,使得抓取的图像更符合用户要求,同时也对网页链接上下文进行主题相关性判定以使爬虫拥有比较有效的爬行路径。系统采用P2P式的分布式结构,充分利用其动态增加新结点的特点,动态增加系统规模,提高系统的整体吞吐能力,以适应人们对日益增长的大数据量要求,满足现在和将来的用户需求。   论文先从阐述一个面向图像的爬虫系统的设计目标入手,然后从单结点的爬虫架构出发,对其进行了较为详细的描述;随后,从单结点系统扩展到分布式爬虫的架构及设计;接着对爬虫系统所涉及的关键技术进行了详细阐述;最后,对系统进行实验验证并对结果进行分析。   主要研究内容包括:   本文阐述了一个面向图像的结构复杂的分布式网络爬虫,详细介绍爬虫系统中的各个组成部分及其功能、以及它们之间的交互协作。针对分布式爬虫系统中数据重叠和负载均衡问题,通过阐述在分布式系统中URL的处理流程,介绍了本文所采用的解决方案。介绍了图像和网页主题相关性判定算法。为了满足系统的I/O性能要求,同时不消耗大量的内存,针对URL在爬虫中的流程,在参考他人的研究成果基础上,详细描述了我们所采用的新的URL处理策略。在上述研究基础之上,本文就面向主题的图像抓取效果、系统吞吐量和图像格式转换进行了实验,并对实验数据进行了分析和比较。
其他文献
所谓万事开头难,一件事情的开头是最难的部分,当事情的头开好了那么事情后续的发展将会顺利很多.所以,作为教师有必要重视课堂导入,运用有趣且最佳的导入方式才能成功吸引学
企业正面临着业务外包的经济大环境。而企业信息系统(IS)有着投入大、风险高、运作复杂等特点,因此信息系统外包逐渐盛行。信息系统外包(简称IS外包)是指企业在自身信息系统
随着现代信息技术在图书馆工作应用的不断深入,知识更新速度加快,图书馆业务复杂程度加深,图书馆员必须不断拓展专业技能以适应新的工作环境和业务需求。专业期刊、专门培训、会
在知识网络和知识经济的大背景下,信息资源管理学科面临着知识范畴更新和学科重建的新使命。因此,掌握信息资源管理的前沿进展情况不仅有助于研究人员把握信息资源管理学科发展
1 WTO/TBT规则及影响1.1 与标准有关的WTO/TBT规则 WTO有关协议中,与标准化直接有关的是《技术性贸易壁垒协定》(简称TBT协定)。技术性贸易壁垒是由国与国之间在对产品进行
高碑店市商业贸易总公司共有下属企业5个,近年来,由于市场疲软、资金短缺、企业包袱沉重、内部经营机制不灵活等诸多原因,至1998年6月底,全系统销售总额4498万元,同比下降35
随着信息技术、多媒体技术等网络技术的进步,网络杂志这种新型传播媒体得到了飞速的发展。这种出版方式给中国出版业带来了巨大影响,成为当今的出版热点。网络杂志的出现不仅为
随着出版社信息化程度不断提高,越来越多的出版社开设了自己的网站,确立网上的出版形象。这些形态各异的网上门面,也在昭示着个性化时代的到来。我国出版社的网站形象大多呆板、