论文部分内容阅读
汉语篇章中,常有标点句句首话题缺失的现象。这种现象是机器翻译、信息抽取等应用准确率不高的原因之一。 本文工作围绕如何补足标点句句首缺失话题这一核心问题展开,报告了语言学、计算语言学、语料库建设方面的相关研究现状,详细说明了本文工作的理论基础——广义话题理论,然后从该理论出发,采用换行缩进图式标注了中国大百科全书鱼类语料的243篇文本,对语料做了分词和语义泛化,并进行了实例调查和分析。 根据汉语话题结构的特点,提出标点句之话题句识别的研究方案,包括单个标点句的话题句识别和标点句序列的话题句识别两个阶段任务,并开展了相关的实验研究。 本文主要创新性工作包括: 1)提出针对单个标点句之话题句识别的技术方案。首先是基于广义话题结构的堆栈模型,为标点句添加所有可能的话题从而构造候选话题句集合;进而提出整句可用度函数,用以评估候选话题句的优劣,帮助找出正确的话题句;在整句可用度函数的求值过程中,采用语义泛化和编辑距离两种手段计算候选话题句与话题句库中话题句的相似度。实验中对717个标点句的开放测试的准确率比基线高出12.50个百分点,达到了73.64%,对200篇文本的十折交叉验证测试的均值达到了69.38%。 2)提出了基于多种特征的候选话题句评估函数。为了提高单个标点句的话题句识别的准确率,需要在话题句识别过程中优化用于评估候选话题句优劣的评估函数。为此,本文提出了话题句生成的上下文相似性特征、话题串与说明相邻接的局部相似性特征,并构造了基于整句可用度、上下文可用度、局部可用度以及它们的组合等四种话题句识别评估函数。实验表明,基于上下文可用度和局部可用度相组合的话题句识别评估函数效果最好,对200篇文本的十折交叉验证测试的均值达到了76.30%。 3)提出了候选话题句生成过程中的筛选策略。单个标点句的话题句识别的技术方案中采用穷举方法生成标点句的候选话题句,会影响系统的执行效率和话题句识别的准确率。为了减少冗余的或不成句的候选话题句的个数,利用标点句在篇章中的位置特征、话题的语法特征以及话题串与说明的邻接性特征,提出了一种基于细粒度特征的候选话题句筛选算法。该算法对200篇文本的十折交叉验证测试的均值达到了77.24%。 4)提出了标点句序列的话题句识别方案。通过构造与标点句序列对应的候选话题句树,并利用优选策略从树中选取最佳路径从而获取话题句序列。针对15篇文本进行了开放测试实验。实验结果中,话题句识别的准确率达到了77.41%,比基线高出16.27个百分点。 本文在受限领域文本的话题句识别研究工作取得了一定的成果,这些工作将有益于推进篇章语言学的研究,促进机器翻译、信息抽取等应用水平的提高。