论文部分内容阅读
随着Internet技术和应用的不断发展,Web页面的数目飞速增长。搜索引擎所面对的数据也呈指数上升。现有的通用搜索引擎都是面向综合信息的,对于化工专业领域的人员来说,查询化工学科的网络信息如果没有优秀的专业检索工具,没有体现化工学科独特的词汇和用语以及相应的标引和检索语言,检索结果就不可能理想。而现有的化工专业检索工具无论是数量和还是质量都无法满足众多专业用户的需要。因此,研究化工专业信息检索方法和技术,建立高效的化工专业信息检索系统,为化工专业人员提供方便快捷的检索服务具有十分重要的理论意义和应用价值。
本文针对网络上的化工专业信息资源特点进行分析,研究面向化工学科的信息检索方法和技术,设计并开发具有化工专业特点的信息检索系统。
搜索引擎是一项融入了多项技术的网络信息检索系统,它涉及到专业网络信息的获取技术、多种信息格式的转换技术、海量信息的索引技术、信息检索技术、文献摘要自动生成技术、网页排序技术、中文分词等多项信息处理技术。本文在对上述核心技术进行深入研究、分析的基础上,设计了一整套适用于化工专业搜索引擎的技术方案,并在系统开发中得以实施。
最丰富的化工专业网络信息资源是网页。自动获取化工专业网页是化工专业搜索引擎核心的技术。本文提出了通过统计化工专业词汇的密度进行网站相关性评价,从而确定化工专业站点的SiteRank,并结合站点内部的链接分析,保证了化工专业网页的定向获取。
另一种化工专业网络信息资源是专业数据库。通常网络数据库信息以动态网页形式出现,属于网络中的深层信息,必须通过提交查询才能获得。通过分析HTML结构标记并建立Tag Tree,本文提出了将网页结构对比分析和页面内容对比过滤相结合的数据提取方案,并对化工物性数据库进行了测试,成功地进行了数据提取,为下一步尝试建立化工数据库搜索引擎奠定了基础。
中文分词算法是中文信息处理的基础,是人们长期研究的热点问题。针对化工专业词汇的特点,本文改进了最短路径分词算法,通过选取最佳路径,消除了部分歧义。改进后的分词算法复杂度并未增加,分词的准确性有了一定提高。
对于大量化工专业网页的索引,系统利用了开放源代码的Lucene索引系统。在对Lucene系统代码深入剖析的基础上,详细研究了Lucene的结构框架、文件结构和类型及索引过程,设计了利用Lucene索引系统建立化工专业网页索引的实施方案,通过对原代码的改进和补充,实现了化工专业网页的批量索引和增量索引。
在化工专业信息检索方面,针对化工专业术语的特点提出了同义词的检索方案,设计了适合同义词检索的词典,实现了化工专业搜索引擎的扩展检索。此外设计了基于关键词词频和位置的网页排序算法及自动摘要生成算法。本文提出的算法形式简单、运算速度快,突出了化工专业性,在化工专业搜索引擎中得到了很好的应用。
最后,本文对化工专业搜索引擎系统的总体结构进行了详细介绍。该系统共有数据采集系统、数据分析系统、网页索引系统和检索系统四部分组成。本文对每个系统内部及系统之间的联系进行了详细设计,并进行了多次系统整体运行测试。测试结果表明,化工专业搜索引擎实现了化工专业网页的自动获取、自动索引,能够实现化工专业网络信息检索功能.