论文部分内容阅读
随着互联网的飞速发展,网络上的网页数量呈指数级增长,包含的信息数据越来越多、越来越广,人们想要在互联网中找到自己需要的信息也变得越来越困难,于是就出现了搜索引擎。但是人们常用的通用搜索引擎像百度、Google等虽然能帮助人们搜索到一点相关信息,但在特定需求下,却无法满足人们的需求。因此,垂直搜索引擎如雨后春笋大量涌现。本文通过改进网络爬虫Heritrix的抓取逻辑,并改进和扩展其功能,使它能够抓取指定网站上的特定网页内容,然后通过研究Lucene的基础排序算法,并借鉴PageRank算法思想,对其做了改进。首先,介绍了垂直搜索引擎使用的相关技术,包括网络爬虫技术、结构化抽取技术、中文分词技术、索引与搜索技术等。其次,详细描述了网络爬虫Heritrix改进后的抓取配置步骤,从四个方面对它的功能做了扩展。再次,引入PageRank算法思想,将Lucene的基础排序算法改进为适合网页排序的算法,并给出了算法实现。最后,从实际生活问题出发,以数码相机为例,应用文中所讲的技术设计并实现了一个垂直搜索引擎,并将本人在文中所做的改进和实现部分都在该引擎中做了对比测试。