汉语后控词表实现模式评价与改进研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:zq867123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着情报检索计算机化和自然语言化的进一步发展,自然语言和情报检索语言结合的趋势更加明显。“自然语言+后控制”已成为情报检索发展的必然趋势。所以研究它们的结合方式成为当务之急。后控词表是众所周知的自然语言和情报检索语言结合的典范。  后控词表雏形是一部同义词词典,随后国内外陆续出现了一批后控模式。这些模式吸收先进技术,从不同角度探讨了后控词表实现的方式方法,有些已达到或接近实用。本文对这些模式分门别类进行研究,分析其原理,结合实例阐述其实现过程,并评价其特性。  词典模式比较简单,机器实现比较容易。但是,词典构造比较困难,词典维护代价较大,因而不是十分理想。  积累提问式模式在检索提问式中选择后控词,使后控词表获得较高的“用户保障”。但由于用户检索水平参差不齐,检索提问词的有效性受到影响,因此后控词表质量不高。  根据词形变化实现后控词表编制的相似性匹配方法在一定程度上对同义词进行控制,减轻了用户构造检索策略的负担。但是汉语中由于词形变化和词义变化之间并没有必然联系,因此,完全依赖于词形模式不能达到较好的后控目的。  聚类分析能综合利用多种指标进行分类,并允许增加一些对分类有价值的综合指标用作分类依据,因而聚类效果较好。但是它对变量选择要求比较严格。  相比于以上模式,词频统计模式是建立在较成熟的语言学统计研究成果基础上的,具有一定的客观性和合理性。然而它必须克服单纯统计的形式化缺陷,并结合语法语义分析,才能构造高质量的后控词表。  超文本模式为后控词表创造了较好的技术环境,它真正从人的思维角度来实现检索的后控过程,减少了检索人员的智力负担。  本改进系统充分吸收了上述模式优点,摒弃了完全依靠机器或仅依靠人工完成词表编制的原则,采用正确的编制思想由人机结合共同完成词表编制。本系统结构为:自然语言词典+主题词表/轮排+分类表,存储结构由一个系统词典和三个辅助词典来实现。在此基础上,首先通过一定程序实现基本表编制的机编化。其次,以基本表为参照标准和理论依据,确定了改进系统的总体结构和各部分模块结构,并分别给出各模块的数据流程图。然后,对后控词来源和增补进行了说明。最后对改进系统进行了客观评价。  本改进系统利用人机结合方式,提高了词间关系判断的准确性,采取人工参与最少量原则,实现词表编制的高质量。但是词表通用性较差,专指度受限,人工参与程度把握等问题仍需进一步研究。
其他文献
突破性创新(disruptive innovation,DI)包含市场突破性创新和技术突破性创新,技术突破性创新包括基于引用科学知识突变的突破性创新和基于技术知识突变的突破性创新,本文主要研
针对鞍钢新4号高炉燃料消耗较高的问题,通过建立三元碱度模型,采取差异分位布料方法进行炉料的合理搭配,实施以中心为主、适度疏松边缘的布料模式,用以改进炉料的还原效果;下
期刊
在网络日益成为最重要的科学交流和传播渠道的今天,很多重要的科技战略、科研活动、科研成果、基金资助等与科学研究和科技战略决策相关的信息都可以直接通过网络获取。利用网
随着知识经济的发展、数字信息环境的变化,情报活动从传统领域中走出来,成为一种社会活动广泛存在于科技、经济、教育、军事、政治等各个方面。数据分析时代的到来,将情报分析严
通过加压冶炼、控制轧制方式获得氮质量分数为0.59%的Mn18Cr18N钢板,研究了终轧温度对高氮奥氏体钢组织和力学性能的影响.结果 表明,在再结晶区轧制并且终轧温度为970℃的钢板
随着新课程改革的进一步推进,英语作为最重要的信息载体之一,已成为人类生活各个领域中使用最广泛的语言。如何使课堂教学更有效果,如何将新课标的思想理念、方法手段运用到日常
我国经济进入调整期后,人民币汇率走势的不确定性将增加,汇率变动将成为经济决策与预测的重要考量因素自2007年9月以后,人民币汇率出现了加速上升趋势,逐日迫近7:1的市场心理
关联数据范式为基于Web的数据、信息及知识发现带来了新的模式,其中RDF链接扮演着重要的角色。然而与关联开放数据(LinkedOpenData,LOD)资源的飞速发展极不协调的是,LOD资源之间
认为信息技术的快速发展和应用,增强了海量数字化信息内容的处理能力,为各种知识服务算法的研发应用创造了条件。以软件算法为核心的知识服务系统具备无人值守、自动化运行的