论文部分内容阅读
潜在语义索引技术(LSI)是第三代搜索引擎的热点技术,是一种个性化的检索方法。第一代搜索引擎采用基于布尔逻辑的关键字检索技术,第二代在前者的基础上通过各种方法提高了查准率,而第三代搜索引擎则以实用性与易用性为目标,它运用了DeepWeb、人工智能、语义分析等前沿领域技术。目前,主流的搜索技术仍然采用基于布尔逻辑的第一代技术,它必需用户提供准确的关键字以供检索;而数据信息量的增加以及自然语言的灵活性与歧义性,使得传统的搜索方法越来越无法胜任用户的需求。作为替代者,个性化的搜索技术越来越引起广泛的重视与研究。近年来,苏州市涉及知识产权的案件和纠纷迅速增加,建立苏州地区知识产权专家库可以使市知识产权局能深入了解并掌握本地区各行业专家最新的第一手资料。但是面对本地区复杂繁多的行业、不同层面的专家及其研究领域,以及关键内容的各种不同方式的自然语言描述,传统的搜索引擎难以达到快速准确搜索的要求。在这种背景下,本文设计将LSI检索应用于苏州市知识产权专家库系统。根据调查,目前尚未有应用LSI检索的专家数据库的报道。本文将LSI技术应用于苏州市知识产权专家库检索系统中进行探索性研究,并根据专家库的特点和实际应用情况对相关技术和算法进行了研究和改进。具体包括以下几点:1、研究已有信息检索模型并总结优劣;同时在研究分析已有LSI技术的前提下,根据专家库的应用范围与特点,对相关技术进行了改进工作。2、阐述了一种基于LSI的专家库检索方法,运用基于层次化特征的快速聚类方法实现了基于LSI的专家信息快速检索。3、经过前期调研和大量工作基础上,实现了知识产权专家库原型系统,并在我局原始专家信息数据库上对系统的查准率、命中率等相关性能进行评价。