论文部分内容阅读
传统互联网搜索引擎可以供用户检索到许多信息,但对于企业用户,它搜索结果涵盖范围太广且不能达成对内部系统报表或数据库的有效查找。再加上现代企业信息化的繁荣兴盛,使得专用的搜索引擎成为他们提高工作效率的迫切需要,企业搜索引擎也因此成为当前科技中备受关注的研究之一。所以论文选定“基于Lucene的企业智能搜索引擎实现研究”这一课题,结合浙江中烟建设搜素引擎系统的目标,引入并改进一系列技术,提出了面向烟草企业的智能搜索引擎架构,并设计实现了浙江中烟搜索引擎系统。本文研究的关键点有:(1)根据浙江中烟智能搜索引擎系统要达到的目标总结出现代企业对搜索引擎的两种需求:一是通过主题搜索为用户提供特定行业的相关信息,如行业动态等;二是根据用户输入的普通查询关键词搜索到相关报表或对内部关系数据库内容。(2)设计特定主题的增量型聚焦网络爬虫:在传统爬虫架构基础上建立烟草主题爬虫架构,改进爬行策略提高爬行速率与准确率,根据烟草行业网站特点制定增量模型提高爬虫的时新性,并将爬取的内容进行云存储、去噪与查重等处理。(3)基于Lucene建立烟草行业的智能检索模型:结合Lucene的向量空间模型算法和改进的PageRank算法给出面向烟草行业相关度排序算法;根据浙江中烟数据仓库的设计特点提出“维度关键词”这一概念,构建烟草领域本体,并提出基于本体的关键词语义扩展策略,设计了烟草行业关系数据库查询的体系结构。(4)提出了企业搜索引擎的体系架构,主要包括源数据抽取、利用聚焦爬虫进行数据采集、数据加工、数据存储、信息检索、系统管理以及页面展示几个层面。(5)设计实现了浙江中烟企业搜索引擎系统,实现了查准率比通用搜索引擎高出很多的烟草行业内主题网页搜索,以及通过简单关键字对浙江中烟内部报表和关系数据库的检索,并对某些重要内容的检索结果汇总分析为用户进行展示。满足了浙江中烟对企业搜索的需求,同时可以扩展应用到其他企业。