论文部分内容阅读
随着Web上的信息愈来愈大,获取更加准确,详细,深层的专业信息,成为通用搜索引擎在信息采集方面的严峻挑战。垂直搜索引擎的出现,使得问题迎刃而解。垂直搜索引擎的网络机器人在爬行时要不断地计算当前网页的主题相关度数值,并根据数值评价网页的主题相关度,因此,它可以有效地避开大量无关主题区域,只检索出Web中与特定主题领域内的相关网页信息。所以,垂直搜索引擎的准确率、召回率和效率都远胜于通用搜索引擎。同时,因为网页数目的剧减,垂直搜索引擎系统维护的代价也远远低于通用搜索引擎。本文首先论述了垂直搜索引擎的研究意义,然后基于全文检索Lucene框架介绍了搜索引擎的三大核心技术:索引,搜索和中文分词技术。通过与通用的搜索引擎进行比较,深入研究了垂直搜索引擎关键技术。本文的主要研究内容包括以下几点:(1)指出了搜索策略中的HITS算法容易产生漂移和隧道现象的不足,并对其算法做了改进,使得一定程度上避免了主题漂移问题,引入超链接的预测权值参数,使得对隧道链接的判别具有了更高的准确性。(2)应用在主题相关度判别中的向量空间模型算法,此算法在应用前,假设文档中的词条相互独立的,与实际不符,从而造成不能很准确地判断其主题相关度的缺点,本文对此算法进行了改进,即将文档中各个层次中的词条重要性赋予不同的权值,然后将此因素也加入到主题相关性判别算法中,从而使得其算法更加准确。(3)同时提出了一种新的网页消重策略,经过大量实验表明取得了较好的效果。应用Java+Lucene开源框架为基础,利用改进后的算法成功构建了一个可以在Tomcat服务器上运行的垂直搜索引擎系统软件原型。最后,为了验证改进算法具有更高的性能,文中进行了相关实验测试,通过实验数据验证了改进后算法的合理性和可行性。