论文部分内容阅读
共指现象在自然语言中十分常见,它使得句子、主题更为简明突出,但同时增加了计算机理解自然语言难度。共指消解足自然语言处理的重点和难点之一,在机器翻译、文本摘要、信息抽取等领域中有广泛应用。随着信息技术相关应用的发展,共指消解成为自然语言处理中的热门研究问题,并成为ACE等国际评测的重要任务。 本文介绍了现有的共指消解相关技术和方法,并对国内外的理论和实现技术进行了总结。分析并参考了Soon提出的基于机器学习的共指消解框架,在此基础上实现了一个共指消解系统。针对ACE2007中文语料,提出了基于特征分选策略的共指消解方法,同时也研究了语义信息在共指消解中的应用。 本文使用SVM作为机器学习算法,特征的选择和提取也因此成为最重要的内容。本文首先将人称代词和其余名词短语采用分选策略选择特征进行实验和分析对比,在使用ACE2007中文新闻广播语料实验中,采用分选策略得到的F值提高了1.04%:并将语义信息引入基准系统,研究它们对共指消解的作用,实验结果显示语义信息如语义类别和语义相似度的加入对共指消解的性能有不同的影响,两者结合引入了更多有效特征,更有利于共指消解性能的提高,F值达到82.97%,比基准系统提高超过3个百分点。 共指消解的有效进行还需要很多信息,本文埘中文共指消解相关内容做了初步研究工作,为今后的深入研究铺垫了一定的基础。