论文部分内容阅读
句间回指消解是当前中文信息处理的一个重要研究课题,对汉语文本信息检索、信息抽取、自动文摘、机器翻译等具有重要的应用价值。HNC(Hierarchical Network of Concepts,概念层次网络)理论是本研究的主要理论来源,本文以HNC概念基元、句类和语境单元为基础,对立法语言中的句间回指现象采取多策略、多层面的消解。采用定性与定量、演绎与归纳相结合的方法,先标注和分析汉语真实文本语料,结合HNC知识库进行演绎和归纳,然后制定消解策略和消解规则,给出数据结构描述和算法。概念基元是“显微镜”,看清指代语与先行语的微观联系;句类是“放大镜”,将指代语和先行语纳入57组基本句类中进行关联;语境单元则是“望远镜”,为指代语和先行语提供具体的语境知识;回指消解需要在这三个层面上进行研究。与传统的基于统计和语法规则的研究相比,直接从语义和语用入手、采取演绎和归纳的研究方法,对回指进行形式化描述和消解,服务于计算机句群自动理解,这是本文的主要特色和创新。
概念联想脉络是本研究的主线。句间回指消解的本质是概念联想脉络的激活、扩展、浓缩、转换和存储的全过程运作,是远距离的“多选一”操作。本文以立法语言文本为标注语料,探讨了概念基元、句类、语境单元知识对回指消解的作用,研究了回指消解策略、规则和算法。研究内容主要包括以下5个方面:
(1)介绍了回指消解的研究现状,指出了回指消解的研究价值;回顾了HNC的发展脉络,将回指消解问题纳入到HNC理论体系进行研究,分析了(HNC1)、(HNC2)和(HNC3)对回指消解的重要理论价值;
(2)建设了回指消解精细语料库和知识库。语料库是分析回指现象、制定消解规则的基础资源,用于对回指现象进行定性和定量分析;知识库包括概念基元知识、句类知识、领域句类知识等,是实现回指消解的重要资源。
(3)制定了回指消解策略。句间回指应采用“中间切入,上下并进”的策略,从领域句类表示式、句类分析、多元逻辑组合等角度对回指消解进行分析,提出了汉语回指消解的策略和一般流程;
(4)对典型的汉语回指现象进行分析,重点对代词回指、语义块共享、真(伪)省略等形式进行研究,给出一般性的规则;
(5)对回指消解算法进行描述,用数据结构和算法进行模块化和形式化描述,便于上机实现。