论文部分内容阅读
句法分析是自然语言处理研究中的关键技术之一,其任务是根据给定的语法,自动推导出句子的语法结构。它对于机器翻译、信息检索、信息抽取和语义分析等自然语言处理系统都有着极其重要的意义。自然语言处理根据其处理的对象的不同分为若干层次,对于语义的处理就是其中的一个层次,语义是语言对客观世界的解释,是众多研究领域的基础,若要明白某段语言的含义,首先就要了解其语义结构。 本文从语义层面对自然语言处理做了相关研究,提出并实现了一种基于语义的汉语依存句法分析优化方法。 语义分析是理解自然语言的基础,本文在各种知识表示方法及各种语义学理论的基础上,采用以本体的形式来表示语义,提出并构建了基于背景知识的汉语语义知识表述体系,为每一个词汇构建一个本体实例化图来描述该词汇的语义。每当遇到一个词汇,则根据词汇的基本信息进行语义识别,如果背景知识中有这个词汇的相关语义描述,则视为这个词能够被语义理解,反之则认为不能理解这个词语。 根据依存句法树的词汇进行语义识别,通过识别出来的实例化图以及依赖关系对依存句法树从语义层面计算其语义特征量,即句法分析结果的语义综合匹配度,根据语义综合匹配度优化句法分析结果的排序,从而优化依存句法分析结果的正确性。 接着,给出了本方法的测评结果,我们的检测语料库为维基百科91个大学的页面内容,总共分成5223个句子,使用ctbparser中文句法分析器给出每句的前十种可能的句法分析结果,为了减小由背景知识不足引起的误差,对其中语义综合评价度大于0.1000的数据进行统计。结果表明,将语义引入依存句法分析,不仅提高了依存句法分析器的准确率,而且使依存句法分析结果更符合语义结构,更接近语言的原意。 本文在最后对全文进行了总结,并指出了下一步的研究工作。本文把工作从常规的根据词语的文字、词性、语法结构等方面分析深入到了从语义层面。建立了系统的、完整的背景知识,并在此基础上提出并实现了一个基于语义思想的汉语依存句法分析优化的系统。经过最后对语料库的实验检测,取得了显著的结果。本文的工作将对下一步的研究工作奠定良好的理论基础和实践基础。