论文部分内容阅读
网络信息资源的快速发展使信息用户的构成、用户的信息需求和检索行为发生了很大变化,用户不再以专业技术人员为主,而是包括了不同年龄阶段、不同职业的用户。在网络环境下,非专业人员的网络信息检索活动的比重大幅度提高,而这些用户大多没有经过检索培训,没有使用检索词构造提问式、制定检索策略的经验。所以自然语言检索技术的研究与应用日益受到信息检索界的高度重视。 对检索系统来说,自然语言检索包括自然语言标引和自然语言提问处理两方面的内容,这两方面既是相互独立的问题,又具有紧密的联系。一个理想的自然语言检索系统应既采用自然语言进行标引,又能接收并处理自然语言形式的用户提问。这样的信息检索系统不仅具有标引简便、快捷,检索方便、简单,用户负担小等优点,而且在理论上能够提供更丰富的手段,获得更高的查准率,为检索过程的智能控制提供了便利。 虽然上述自然语言信息检索所具有的优点已经为人们所认识,并且已经有研究人员做过相关的研究,也有一些信息检索服务机构也开发了试验系统进行尝试,但是自然语言信息检索中的很多重要问题并未能完全解决,如用户提问的深层次分析处理,检索匹配过程控制等。同时,自然语言检索具有很强的语种相关性,而目前相关的研究多集中于对英文文献的研究,对汉语自然语言检索的研究还较少。 本论文针对当前自然语言检索存在的问题,在详细调研的基础上,采用自然语言处理技术,在句法分析的层次上,对汉语自然语言检索中的主要问题进行了研究。研究的主要内容包括面向自然语言检索的标引技术、自然语言提问分析与处理、自然语言检索的匹配过程控制等问题,并给出了相应的解决方法。在文档处理过程中,采用文本划分的方法,将文档划分为多个主题段,对每个主题段采用名词短语进行标引,从而生成精细的索引项,这样的索引在理论上具有更好的查准率。在处理用户提问时,利用了句法分析的方法从提问中提取出与文档标引项形式一致的提问结构。最后,开发了试验系统,对设计方法进行了验证,并对结论进行了分析。 本文在以下方面进行了创新尝试: (1)通过调研,对自然语言环境下用户的提问形式进行了研究,对自然语言提问的语言学特点进行了分析。并在此基础上,制定了用户提问的处理方法。利用句法分析技术,将用户提问处理转换为可匹配的形式。 (2)对适合自然语言检索的标引进行了研究。在标引理论的基础上,根据自然语言检索的需求,提出了面向主题段的标引思想,并采用名词短语的形式来表示主题段索引。与一般的主关键词或全关键词标引相比,这种标引能更好地支持自然语言检索。 (3)对汉语自然语言检索进行了全面、系统、深入的研究。从自然语言标引和自然语言用户提问处理两个方面探讨了自然语言检索中的关键问题,并给出了系统实现的流程,为在较高的语言处理层次上实现较为理想的自然语言信息检索系统进行了理论上的探索和准备,以及重点环节的实现尝试。