论文部分内容阅读
随着情报检索计算机化和自然语言化的进一步发展,自然语言和情报检索语言结合的趋势更加明显。“自然语言+后控制”已成为情报检索发展的必然趋势。所以研究它们的结合方式成为当务之急。后控词表是众所周知的自然语言和情报检索语言结合的典范。 后控词表雏形是一部同义词词典,随后国内外陆续出现了一批后控模式。这些模式吸收先进技术,从不同角度探讨了后控词表实现的方式方法,有些已达到或接近实用。本文对这些模式分门别类进行研究,分析其原理,结合实例阐述其实现过程,并评价其特性。 词典模式比较简单,机器实现比较容易。但是,词典构造比较困难,词典维护代价较大,因而不是十分理想。 积累提问式模式在检索提问式中选择后控词,使后控词表获得较高的“用户保障”。但由于用户检索水平参差不齐,检索提问词的有效性受到影响,因此后控词表质量不高。 根据词形变化实现后控词表编制的相似性匹配方法在一定程度上对同义词进行控制,减轻了用户构造检索策略的负担。但是汉语中由于词形变化和词义变化之间并没有必然联系,因此,完全依赖于词形模式不能达到较好的后控目的。 聚类分析能综合利用多种指标进行分类,并允许增加一些对分类有价值的综合指标用作分类依据,因而聚类效果较好。但是它对变量选择要求比较严格。 相比于以上模式,词频统计模式是建立在较成熟的语言学统计研究成果基础上的,具有一定的客观性和合理性。然而它必须克服单纯统计的形式化缺陷,并结合语法语义分析,才能构造高质量的后控词表。 超文本模式为后控词表创造了较好的技术环境,它真正从人的思维角度来实现检索的后控过程,减少了检索人员的智力负担。 本改进系统充分吸收了上述模式优点,摒弃了完全依靠机器或仅依靠人工完成词表编制的原则,采用正确的编制思想由人机结合共同完成词表编制。本系统结构为:自然语言词典+主题词表/轮排+分类表,存储结构由一个系统词典和三个辅助词典来实现。在此基础上,首先通过一定程序实现基本表编制的机编化。其次,以基本表为参照标准和理论依据,确定了改进系统的总体结构和各部分模块结构,并分别给出各模块的数据流程图。然后,对后控词来源和增补进行了说明。最后对改进系统进行了客观评价。 本改进系统利用人机结合方式,提高了词间关系判断的准确性,采取人工参与最少量原则,实现词表编制的高质量。但是词表通用性较差,专指度受限,人工参与程度把握等问题仍需进一步研究。