部分整体关系的获取与分析研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:Wayne_poplar
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识工程使人工智能的研究从理论转向应用。知识工程以知识为基础,知识获取、知识表示和知识利用都是知识工程研究的基础课题。知识获取和知识表示的研究对人工智能理论和应用都具有极其重要的意义。   目前,在Internet数据中蕴含了丰富的知识,但同时也含有大量的垃圾信息,完全以人工方式获取知识已经不能满足要求,因此必须研究大规模知识获取的方法,以减少手工知识获取的代价。知识获取己成为人工智能发展的瓶颈所在。知识表示是人工智能研究的一个重要课题,如何将获取的知识应用到人工智能系统,使其模拟人类的智能活动,是知识表示所要解决的问题。不同的知识有不同的表示方法,合理的知识表示可以使问题的求解变得容易,并且有较高的求解效率。部分整体关系是人们对于客观世界的基础认识,是一种基础知识。部分整体关系的获取和表示对信息检索、知识问答、个性化信息服务等实现起到支持作用。   本文主要针对从语料库中获取部分整体关系、部分整体关系的分析、部分整体关系的形式化表示和从Web中获取部分整体关系等四个问题,取得了以下五个方面的研究成果:   1.提出了一种从封闭语料库中获取部分整体关系的方法。本文首先通过半自动方式获取表示部分整体关系的模式,并采用框架的方式表示模式;然后从语料库中抽取匹配模式的语料,构成受限语料;再次,利用概念抽取标准和模式从受限语料中获取候选部分整体关系;最后基于部分整体关系的语义特征,构造启发式规则验证候选关系,得到部分整体关系。实验结果表明,我们获取的部分整体关系准确率为86%,召回率为72.73%、F值为79.39%。   2.提出了基于部分整体关系图验证与分析部分整体关系的方法。首先我们以部分整体关系图表示获取的部分整体关系,并且定义了部分整体图中的相关概念,如概念簇和概念相似度等;然后通过识别部分整体关系图中的循环关系,进一步验证部分整体关系;最后基于部分整体关系图,对部分整体关系进行分析,包括(1)基于部分整体关系图对部分整体关系传递性的分析与解释;(2)为消除部分整体图中的冗余关系,我们利用决策树算法识别与剥离部分整体关系中的冗余概念,识别与剥离的准确率分别为91.05%和95.82%;(3)消解非确定部分整体关系,并通过对不能消解的部分整体关系的分析,我们发现了一种新的部分整体关系。   3.提出了部分整体关系的形式化表示和推理规则。基于SUMO本体和获取的部分整体关系实例,通过部分整体关系中概念的语义特征及对不同类型的部分整体关系的认识与理解,我们对每类部分整体关系进行细分。实验证明我们的分类具有一般性。同时根据我们对部分整体关系的细分类及客观世界中人们对部分整体关系的理解,提出了基于SUMO本体的,部分整体关系一阶逻辑的形式化表示。依据部分整体关系的性质和对每种具体部分整体关系的理解,我们给出了关于部分整体关系形式化表示的推理规则集合。   4.提出了一种部分整体关系实例到其形式化表示的映射方法。利用直接映射和间接映射方法将获取的部分整体关系实例对应于相应的形式化表示。将手工标记的一些部分整体关系实例的形式化表示作为样本集,直接映射方法指利用样本集和推理规则,直接将部分整体关系实例对应到相应的形式化表示。间接映射是根据我们形式化表示部分整体关系的过程,首先将部分整体关系映射到对部分整体关系的分类,然后再确定对具体部分整体关系实例的解释。映射方法的准确率为82.6%,召回率为70.3%。F值为76%。   5.提出了一种利用搜索引擎从Web中获取部分整体关系的方法。首先构造一种基于部分整体关系分类的意图查询,利用意图查询可以有针对性地从Web中获取尽可能多的包含部分整体关系的语料;然后根据网页中的HTML标记和意图查询的格式过滤语料,并从中抽取候选部分整体关系;最后基于部分整体关系在自然语言中的表述的特点和汉语的构词规律,我们提出用于验证候选部分整体关系的度量标准。实验结果表明,我们的方法取得了较高的准确率和F值。在前20个结果中准确率为86%,最优F值为64%。
其他文献
随着城市太口的增多和城市交通的密集化,人们对智能交通提出了越来越高的要求,而车载智能终端作为交通网络的神经末梢,也在日新月异的发展过程中。一方面传统的车载终端,智能
我国高校信息化进程通过长时间的发展,逐渐从系统集成阶段进入到应用集成和信息集成阶段。在高校信息化进程中不断产生了“信息孤岛”难题,“信息孤岛”难题的解决有许多传统方
森林资源调查和监测是研究地表植被覆盖状况乃至全球生态变化的重要内容,而森林区域面积的调查和统计又是森林资源调查和监测的研究重点。利用遥感卫星或航空飞机拍摄的高空间分辨率遥感图像,研究解决森林面积的估测问题,即对高分辨率遥感图像进行分类,进而提取出森林区域的部分,是本文的研究重点和主要内容。当前高分辨率遥感图像的分类主要是以计算机为主要工具的对遥感图像像素进行数值处理,从而达到分类识别地貌特征的目的
近年来,随着分布式数据处理技术和云计算的不断发展,数据中心从简单的服务器托管和维护的场所变成了具备海量数据计算和存储能力的网络集群,为大型信息系统提供海量数据处理和存
常识获取是人工智能领域的一个核心难题,其目标是构建面向应用的大规模常识知识库,以实现真正的智能系统。为了突破知识获取“瓶颈”,常识获取的方式经历了由人工编辑到自动
随着网络技术的不断发展,各式各样的网络中间设备不断涌现,发挥着越来越重要的作用。传统的基于专有硬件的网络中间设备具有价格昂贵、难于编程、难于管理等缺陷,网络功能虚拟化
民主是人类政治生活的主题,它关涉民主实践和民主价值。选举是实现民主的重要手段,也是民主政治的核心问题。时代的发展和科技的进步推动了选举制度的改革,而选举技术也随之不断
近些年来随着信息技术的飞速发展,网络技术深入到生活的方方面面,特别是在网络用户密集的大中城市,为了获取到便利的网络连接,各个城市都在努力建设高效、便捷的信息网络,无
作为面向内存的分布式并行计算框架,Spark非常适合于迭代式计算,但是飞速增长的数据量和日益苛刻的实时性要求使得Spark平台的性能优化已迫在眉睫。为了解决Spark平台CPU计算能
EAST数据系统是EAST聚变实验的重要组成部分之一,EAST数据系统主要包含四个部分:数据采集子系统、数据储存子系统、数据发布和分析子系统、数据可视化子系统。   现有EAST