基于语义分类与描述框架的常识知识获取方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:kampfing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
常识研究是人工智能领域核心课题,其核心问题之一就是常识知识获取。常识知识获取的目标是构建能够面向应用的常识知识库。为了提高知识获取效率,部分研究者采用自动获取的方法。但是由于常识知识的隐含性、泛在性和基础性,自动获取方法是无法获取隐含的被大众忽略的常识知识,因此常识知识获取必然离不开人工的参与。本文的一个出发点是:在常识知识获取过程中,人工担任重要的角色,自动获取作为一种辅助。  事件常识知识是一种重要的常识知识,其在自动问答、自然语言理解、信息检索等领域都具有非常大的应用价值。关于事件的常识知识是一个非常复杂的课题,其获取难度较大,且关于中文的事件常识知识获取国内外几乎没有系统的分析和研究。  针对上述问题,本文从基础做起,基于语义分类与描述框架系统地研究如何完善和管理语义文法及事件语义类常识知识获取的理论和方法,具体研究内容包括以下方面:  (1)研究语义分类与描述框架的建模方法。  语义分类与描述框架的建模方法首先给出了单个事件语义类的定义。事件语义类被定义为一个八元组表示模型,包括事件语义类名称、事件语义类定义、事元角色、文法、常识性前提知识和常识性后果知识、公理、谓词和例句。然后本工作给出事件语义类的分类方法和事件语义类之间的关系定义。最后介绍了构建的语义分类与描述框架的规模。同时本工作根据语义分类与描述框架的特征开发了基于Web的语义分类与描述框架知识管理系统和查询系统。  (2)研究基于兼语连动词对和启发式规则的兼语连动文法生成方法,扩展了语义分类与描述框架的表达能力。  兼语连动文法生成方法分为兼语连动词对获取和文法生成两个阶段。在兼语连动词对获取阶段,首先利用规则预处理文本语料,然后利用句法模式抽取候选的兼语连动词对,最后提出后验条件概率验证方法检验候选兼语连动词对。实验表明,本文提出的兼语连动词对抽取方法具有较高的准确率和召回率。在兼语连动文法生成阶段,首先手工校对上一步获取得到的兼语连动词对,然后以语义分类与描述框架体系中的文法为输入,基于规则生成兼语连动文法。实验表明,此兼语连动文法生成方法有较高的准确率,达到96%,最终通过此方法得到37637条新文法。  (3)研究复合句文法的构建方法,扩展了语义分类与描述框架对复杂语句的表达能力。  人类自然语言中大多数使用复合句的形式。针对语义分类与描述框架体系中不能够解析复合句的问题,本工作提出了一种构建复合句文法的方法,此方法根据复合句关联词语的语法特征手工总结复合句文法。通过将语义分类与描述框架体系中的单事件文法嵌套到复合句文法中,使得复合句文法具有很强的通用性。同时根据复合句文法的特征和复合句分句之间的语义关系,构建了复合句文法的分类体系,分类体系给复合句文法赋予另一层语义的同时,还能有效的组织管理复合句文法。  (4)研究交互式事件常识知识获取的方法。  为了获取关于事件语义类的常识性前提知识和后果知识,本文给出了一种基于交互式提问引导获取事件常识知识的方法。方法基于常识知识角度等提示信息,对知识贡献者输入常识知识的过程进行提示和引导。通过提示和引导,知识贡献者获得明确的目标然后会进行深入地思考,最终会给出更多更准确的常识知识。为论证提问交互过程的合理性,本文还提出了基于二项分布假设检验的定量评估模型,此模型从“可接受性”和“有效性”两个方面对提问问题进行评价。实验表明,经过提示引导过程知识贡献者不再感觉常识知识输入过程枯燥无趣,给出的知识量增加了451.61%,且知识的正确率也达到了92.5%。  (5)研究协同事件常识知识获取方法。  为了解决单人获取常识知识的局限性,本文给出了一个基于协同获取事件常识知识的方法框架。本方法创新性的将协同工作的思想融入到事件常识知识人工获取中,基于已有的工作,提出了故事事件常识知识协同获取工作模式。同时,为了更好地在常识知识获取中有效运用协同,本文还提出了基于规则的协同工作并应用到上述工作模式中。
其他文献
企业高性能计算的需求日益旺盛,高性能计算服务的提供方式也在慢慢寻求转型,研究如何构建企业级网格应用平台,从而向用户提供更加安全、方便、透明的高性能计算服务,是摆在高性能
学位
图像型火灾探测报警技术利用摄像机作为探头,将被监控现场的图像信息输入计算机系统,然后利用数字图像处理技术,从图像中识别出火焰和烟雾,进而判断火灾是否发生。由于本技术具有
学位
网络技术的快速发展和多变的业务需求使得软件功能日益复杂、规模日益庞大。面向服务架构作为一种新的计算范型,利用服务作为基本的构造单元,支持异构环境下分布式应用的快速、
自1969年互联网诞生以来,人们对它的监测一直没有引起足够的重视。一方面,由于互联网本身结构和内容的复杂性,使得网络的测量缺乏一个统一的标准;另一方面,在互联网发展的初级阶段
学位
随着计算机的普及和网络技术的发展,Internet上的Web用户爆炸性增长。作为Web应用主要支撑平台的Web应用服务器经常面临过载的问题。Web应用服务器集群技术是解决这一问题的有
由于计算机各方面性能的快速增强,数字化的图像和视频信息有了爆炸的增长。作为基于内容的图像检索(CBIR)的重要应用,图像分类帮助用户从大数据库中检索出自己感兴趣的图像。在
自然互动是人机交互的发展方向,其目标是赋予计算机参照人类自然形成的与自然界沟通的认知习惯和形式来与用户进行沟通和互动的能力。作为人们非语言类交流中最为自然和直观的
学位
应用市场日益分散与产品开发费用日益增大的矛盾促进了可根据应用定制的现代现场可编程门阵列(FPGA)迅速发展。随着集成密度按照摩尔定律提高,FPGA正在变得越来越复杂,传统的RT
ETL过程是一个从分布数据源(包括数据库、应用系统、文件系统等)抽取数据,进行转换、集成和传输,并最终加载到目标系统的过程。传统的ETL过程主要服务于数据仓库(Data Warehous
近年来,电信增值业务不断发展,给人们的生产和生活都带来了很大的方便。电信增值业务在“量”不断增加的过程中,“质”的问题却也在不断加剧。各种诈骗案件不断发生,尤其是频繁发