论文部分内容阅读
随着搜索引擎技术的深入发展,垂直搜索引擎在人们的个性化需求下应运而生。然而,作为垂直搜索引擎核心部分的主题蜘蛛在主题搜索方面却存在着效率不高、搜索页面信息范围受限、不能深入地获得具有潜在有价值的页面信息等不足。针对此不足,在主题蜘蛛系统中引入未来回报搜索策略,该策略可以在原有主题蜘蛛系统中更广泛,更深入地扩大搜寻范围,进一步获取潜在的、有价值的页面信息。 本文主要对基于未来回报搜索策略的主题蜘蛛做了设计与实现。文章首先对主题蜘蛛的原理、结构和技术做了详细的介绍,分析了主题蜘蛛所采用的页面解析、中文分词、主题相关度计算等关键技术,然后对未来回报的搜索策略做了分析与设计。它是在基于内容搜索策略的基础上,增加了未来回报URL链接队列,通过实验数据,在系统效率最高的条件下设置未来回报阈值。未来回报URL链接队列保存了页面主题相关度介于系统接受的阈值与未来回报的阈值之间的链接地址,对未来回报URL队列里的链接地址按主题相关度预测值的高低顺序进行排序,优先分析主题相关度高的链接地址。若页面的主题相关度高于系统设定的阈值,则将该页面的链接地址保存至待爬行的URL链接队列中,并继续对未来回报URL队列中的链接地址进行分析,直至满足系统设定的结束条件或者未来回报URL队列为空。在主题蜘蛛系统中,采用并行的工作方式使未来回报的计算线程同系统的主线程同时运行,以最佳的方式提高系统的整体工作效率。 通过对实验数据的对比与分析表明基于未来回报搜索策略的主题蜘蛛系统在搜索范围、页面下载的准确率等方面比基于内容评价搜索策略的主题蜘蛛有了显著的改善和提高。