论文部分内容阅读
随着网络信息的急速增长,传统搜索引擎面临着索引规模、更新速度和个性化需求等多方面挑战。面对这些挑战,适应特定主题和个性化搜索的主题(聚焦)网络爬虫(Topiical Crawler or Focused Crawler)应运而生,用于为人们提供分类更细致精确、数据更全面深入、更新更及时的网络服务。目前的主题爬虫大多是面向文本的,面向图像方面的较少。然而,随着多媒体技术和计算机网络的飞速发展,图像、视频数据呈几何级增长,图像的应用和传播也越来越广泛,如何建立高效的图像检索机制成为目前迫切需要解决的问题之一,建立高效的主题爬虫则成了其中重要的研究课题。
目前大多数搜索引擎都是将世界上的各个网站的数据汇集到一处再进行处理。这种方式需要大量计算机软硬件及网络资源的支持,一般单位很少能负担的起这种运行成本。考虑到网络数据的分布式这一特性,人们希望利用分布于全球的普通PC来抓取数据。借助PC用户提供的空闲运算能力,这种方式会比较经济。更为重要的是,爬虫系统之间的资源共享,可以大量减少网络的负载。为了跟上更新频率,并且不对网络负载造成负担,如何对网站处理采用“就近处理”的方式成为研究人员关注的一个热点。
本文旨在设计和实现一个在健壮性、可扩展性、可控性等各方面都较完善的面向图像的分布式爬虫系统。在实验系统中基于锚文本上下文对图像进行主题相关性判定,使得抓取的图像更符合用户要求,同时也对网页链接上下文进行主题相关性判定以使爬虫拥有比较有效的爬行路径。系统采用P2P式的分布式结构,充分利用其动态增加新结点的特点,动态增加系统规模,提高系统的整体吞吐能力,以适应人们对日益增长的大数据量要求,满足现在和将来的用户需求。
论文先从阐述一个面向图像的爬虫系统的设计目标入手,然后从单结点的爬虫架构出发,对其进行了较为详细的描述;随后,从单结点系统扩展到分布式爬虫的架构及设计;接着对爬虫系统所涉及的关键技术进行了详细阐述;最后,对系统进行实验验证并对结果进行分析。
主要研究内容包括:
本文阐述了一个面向图像的结构复杂的分布式网络爬虫,详细介绍爬虫系统中的各个组成部分及其功能、以及它们之间的交互协作。针对分布式爬虫系统中数据重叠和负载均衡问题,通过阐述在分布式系统中URL的处理流程,介绍了本文所采用的解决方案。介绍了图像和网页主题相关性判定算法。为了满足系统的I/O性能要求,同时不消耗大量的内存,针对URL在爬虫中的流程,在参考他人的研究成果基础上,详细描述了我们所采用的新的URL处理策略。在上述研究基础之上,本文就面向主题的图像抓取效果、系统吞吐量和图像格式转换进行了实验,并对实验数据进行了分析和比较。