论文部分内容阅读
常识研究是人工智能领域核心课题,其核心问题之一就是常识知识获取。常识知识获取的目标是构建能够面向应用的常识知识库。为了提高知识获取效率,部分研究者采用自动获取的方法。但是由于常识知识的隐含性、泛在性和基础性,自动获取方法是无法获取隐含的被大众忽略的常识知识,因此常识知识获取必然离不开人工的参与。本文的一个出发点是:在常识知识获取过程中,人工担任重要的角色,自动获取作为一种辅助。 事件常识知识是一种重要的常识知识,其在自动问答、自然语言理解、信息检索等领域都具有非常大的应用价值。关于事件的常识知识是一个非常复杂的课题,其获取难度较大,且关于中文的事件常识知识获取国内外几乎没有系统的分析和研究。 针对上述问题,本文从基础做起,基于语义分类与描述框架系统地研究如何完善和管理语义文法及事件语义类常识知识获取的理论和方法,具体研究内容包括以下方面: (1)研究语义分类与描述框架的建模方法。 语义分类与描述框架的建模方法首先给出了单个事件语义类的定义。事件语义类被定义为一个八元组表示模型,包括事件语义类名称、事件语义类定义、事元角色、文法、常识性前提知识和常识性后果知识、公理、谓词和例句。然后本工作给出事件语义类的分类方法和事件语义类之间的关系定义。最后介绍了构建的语义分类与描述框架的规模。同时本工作根据语义分类与描述框架的特征开发了基于Web的语义分类与描述框架知识管理系统和查询系统。 (2)研究基于兼语连动词对和启发式规则的兼语连动文法生成方法,扩展了语义分类与描述框架的表达能力。 兼语连动文法生成方法分为兼语连动词对获取和文法生成两个阶段。在兼语连动词对获取阶段,首先利用规则预处理文本语料,然后利用句法模式抽取候选的兼语连动词对,最后提出后验条件概率验证方法检验候选兼语连动词对。实验表明,本文提出的兼语连动词对抽取方法具有较高的准确率和召回率。在兼语连动文法生成阶段,首先手工校对上一步获取得到的兼语连动词对,然后以语义分类与描述框架体系中的文法为输入,基于规则生成兼语连动文法。实验表明,此兼语连动文法生成方法有较高的准确率,达到96%,最终通过此方法得到37637条新文法。 (3)研究复合句文法的构建方法,扩展了语义分类与描述框架对复杂语句的表达能力。 人类自然语言中大多数使用复合句的形式。针对语义分类与描述框架体系中不能够解析复合句的问题,本工作提出了一种构建复合句文法的方法,此方法根据复合句关联词语的语法特征手工总结复合句文法。通过将语义分类与描述框架体系中的单事件文法嵌套到复合句文法中,使得复合句文法具有很强的通用性。同时根据复合句文法的特征和复合句分句之间的语义关系,构建了复合句文法的分类体系,分类体系给复合句文法赋予另一层语义的同时,还能有效的组织管理复合句文法。 (4)研究交互式事件常识知识获取的方法。 为了获取关于事件语义类的常识性前提知识和后果知识,本文给出了一种基于交互式提问引导获取事件常识知识的方法。方法基于常识知识角度等提示信息,对知识贡献者输入常识知识的过程进行提示和引导。通过提示和引导,知识贡献者获得明确的目标然后会进行深入地思考,最终会给出更多更准确的常识知识。为论证提问交互过程的合理性,本文还提出了基于二项分布假设检验的定量评估模型,此模型从“可接受性”和“有效性”两个方面对提问问题进行评价。实验表明,经过提示引导过程知识贡献者不再感觉常识知识输入过程枯燥无趣,给出的知识量增加了451.61%,且知识的正确率也达到了92.5%。 (5)研究协同事件常识知识获取方法。 为了解决单人获取常识知识的局限性,本文给出了一个基于协同获取事件常识知识的方法框架。本方法创新性的将协同工作的思想融入到事件常识知识人工获取中,基于已有的工作,提出了故事事件常识知识协同获取工作模式。同时,为了更好地在常识知识获取中有效运用协同,本文还提出了基于规则的协同工作并应用到上述工作模式中。