论文部分内容阅读
指代大量地出现在自然语言文本中,它对于简化表达、衔接上下文起着重要的作用,文本的概念关联性在很大程度上就是通过指代关系来刻画的。指代消解已成为许多自然语言处理应用中的关键处理步骤,它的这一作用也使得它成为语言理解领域中的一个重要问题。
本文主要针对指代消解中的共指消解展开研究。现有的共指消解系统还不尽如人意。基于知识的方法鲁棒性差,不适用于带有噪音的文本处理;基于机器学习方法的总体性能还不理想,其中名词短语识别需要依赖许多难以获取的知识源,而确定名词短语之间关系时,采用的聚类机制还不完善,最近优先策略(link—first)和最佳优先策略(link—best)以及有监督机器学习方法在解决中文指代消解的研究方面,所采用的优先选择策略都只是独立地针对一对名词短语进行共指决策,实际上各对名词短语的共指决策之间不是相互独立的。
在对现有的共指消解方法研究的基础上,从实体提及(mention)的识别和共指消解两个方面,对汉语的共指消解进行了研究和算法设计与实现,主要工作包括:
1.设计了一个基于AIO模型的实体提及识别系统。采用最大熵模型作为系统分类器,由它给出文本中词序列的标记序列的分类决策,并使用基于beam—search算法的正反双向解码算法对词序列进行解码,从而不是仅仅依靠上下文信息进行分类决策,而是充分考虑了标记序列之间的相关性,从全旬的角度给出某一句话中词序列的分类决策。
2.提出了一种基于图和关联聚类算法的汉语共指消解算法。采用图对名词短语的指代消解问题进行建模,并使用关联聚类对图进行划分,从而不是孤立地对每一对实体提及分别进行共指决策,而是充分考虑了多个实体提及之间的相关性,从全局的角度实现对共指等价类的划分。其中,关联聚类问题的求解采用了首先进行线性规划松弛问题求解、然后再基于区域增长技术进行近似取整的近似求解算法。
3.在ACE中文语料上对实体提及识别和实体提及消解进行了两项实验,实验结果表明本论文所作的工作是有效的。