论文部分内容阅读
随着信息量的快速增加和网络的广泛应用,目前通用搜索引擎在搜索信息时所要查找的数据量越来越多,因此,想要查找到更加详尽和精准的主题信息变得越来越困难。但是,随着面向主题搜索引擎的面世,使得这类情况有了极大的改进。面向主题搜索引擎在网络蜘蛛不断检索时会不时地统计出正在检索的页面内容与所查找信息的匹配值,并用这个值来判断当前所搜索的页面与所要搜索信息的关联度。因而,面向主题搜索引擎能很好地规避掉许多与搜索题目不匹配的噪声结果,仅仅收集网络内和指定主题所匹配的相关网页内容。针对如上所说,垂直主题搜索引擎在搜索速度、精确度和反馈度来说都明显优于通用搜索引擎。由于检索出的信息数量大幅优化,因此,面向主题搜索引擎的相关维护需求也随之减少,并且,还完全优于通用搜索引擎系统的相关维护需求。论文首先论述了面向主题检索程序的历史背景、发展现状和广泛应用前景;其次,论文详细地介绍了基于Lucene搜索引擎的基础理论和具体的实现技术,包括索引技术、搜索技术和分词技术等等;最后,论文在介绍通用搜索引擎技术基础上,开发了一个自已的搜索引擎,包括搜索引擎的具体开发过程和具体的实现技术。论文的主要工作体现在如下三个方面:(1)探讨了通用搜索引擎运用的HITS算法策略,详细地分析了 HITS算法的Authority和Hub,发现采用HITS算法开发的搜索引擎容易造成通道不够及主题漂移的现象。因而,在新开发的搜索引擎中,对这些存在的缺点和不足进行了改进,可以达到规避主题产生相关漂移的问题。由于采用了对超链接的预判权重值优化,达到并提高了对通道链接识别的精准性。(2)针对通用搜索引擎在信息查找过程中不能使查找主题与需要搜索信息精准匹配的问题,论文对匹配算法进行了相应的改进和优化,使得文中每个相关的词条,根据其相关性授予不同的权重值,使之这样改进之后的主题匹配度有了很好的改善和提高。(3)论文在分析已有通用搜索引擎优缺点的基础上开发了一个自己的垂直搜索引擎。该搜索引擎以旅游景点和城市公园为搜索对象,对东北的一些旅游景点进行搜索查询实验。实验结果对比表明,本文所开发的搜索引擎和通用搜索引擎相比具有明显的精准性优点。在开发垂直搜索引擎中,论文采用Java+Lucene的开放框架,并得到了一个可在Tomcat服务器上执行的面向主题搜索引擎的系统。最后,论文还列出了对所开发搜索引擎的测试结果,测试结果再一次证明了所开发的爬虫具有较高的搜索效率,同时也表明,论文所开发的爬虫具有一定的实际应用价值和广泛的应用范围。