论文部分内容阅读
语义web技术使互联网用户可以更好的获取多种信息和相关服务,通过为互联网信息增加语义将使“更多的信息变得更有用”。语义web的远景和目标是实现数据之网(Web of Data),数据以多种方式进行描述并以相应的语义链接为基础构成上下文,而本体(Ontology)和知识库(Knowledge Base,KB)的构建工作则被视为语义网发展的前提条件和基石。 关联数据(Linked Open Data,LOD)项目作为语义网发展的重要组成部分,其目标是将web上已经发布的语义数据集之间进行最大限度的关联,以使得各自孤立的语义知识点可以互相关联进而最终形成大规模知识网络,从而使得知识共享和语义互操作成为可能,同时,如果将分散的数据源链接起来形成一个互联的数据之网,则形成的知识网络就会具有更高的价值,由此便可催生不同领域的网络新应用出现。自从万维网之父Tim Berners-Lee提出关联数据的概念至今,相关研究已经越来越来受到学者的关注。本文重点关注关联数据构建的关键技术研究,包括以下三个研究点: (1)领域本体的自动化构建 在进行大规模领域本体的构建时,基于手工方式的构建模式效率较低并且可行性较差。为了解决大规模领域本体库的自动化构建问题,利用中文百科与政务叙词表都具有跨领域覆盖的特点,提出了一种领域叙词表与网络百科知识库相融合的两阶段领域本体自动化构建方案。 (2)面向中文网络百科的知识发现 从网络百科中自动获取海量知识已经被越来越多的学者所关注。目前的研究主要关注于从英文网络百科数据源进行海量知识的抽取,而对中文或其他语言描述的数据源进行知识抽取的研究非常少。因此,为了解决中文大规模知识库的自动化构建问题,提出一种基于中文网络百科架构的大规模知识库自动构建方案。 (3)框架级(schema-level)的中文大规模关联数据系统研究 目前关联数据的研究工作主要集中在实例级别上展开,而对于框架级别的关联数据构建则易被忽视。同时,本体映射被视为框架级别关联数据构建的典型场景。特别地,中文知识是网络开放知识库的重要组成部分,但现有的中文本体映射系统在面对大规模本体映射任务时,显得效率较低且可用性不高,目前仍缺乏针对中文大规模本体映射的相关系统。为了解决框架级别上的中文大规模关联数据构建问题,提出了一种基于同义词词林的大规模中文关联数据构建模型。 本研究主要包括以下研究内容和创新点: (1)提出一种领域叙词表与网络百科知识库相融合的两阶段领域本体自动化构建方法。在第一阶段,进行叙词表至本体的粗映射,形成领域粗糙本体。在第二阶段,将网络开放百科中的结构化知识与粗糙本体进行自动融合、自适应调整和扩充,进而形成含有丰富语义信息的、良构的领域本体库。基于提出的两阶段方法,以中国电子政务领域为例,自动化地构建一个大规模中文本体框架,进而验证了该方法的可行性和有效性。 (2)提出一种面向中文网络百科非结构化信息的知识获取方法。大规模开放域知识库的构建方案由以下两个步骤构成。首先,对知识三元组中的主语和宾语之间的语义关系进行自扩展学习,即:新词发现。其次,基于条件随机场和支持向量机协同分类器,对标注出的属性和属性值实体之间的语义关系进行预测。基于该方案,自动化地构建了大规模开放域中文知识库。 (3)提出一种新的面向中文大规模本体映射模型的总体框架。随着本体规模的扩大,如何保证本体映射的效率就成为亟待解决的问题。本研究提出的本体映射总体框架由三大功能模块组成,分别是:本体概念初始相似度计算、本体压缩和确定性映射。首先,采用基于编辑距离和同义词词林相结合的多策略融合方法来计算待映射本体之间的概念初始关联度。其次,基于概念初始相似度对待映射本体的规模进行压缩。最后,根据中文概念特有的语义特征,通过引入序列比对思想,提出一种新的中文本体概念等价关系确定性映射策略。 (4)提出了一种对大规模本体映射规模进行压缩约简的新方法。传统的本体映射系统和方法往往只注重映射结果,而忽视了映射效率。在面对大规模本体映射任务时,传统方法显得实用性不强。本研究在对中文大规模本体进行等价关系的确定性映射前,提出将时间复杂度控制在可接受的范围内。提出了一种新的数据场势函数,对大规模本体首先进行映射规模的约简和压缩。在对原始拟核力场势函数进行改进的基础上,基于《同义词词林》(扩展版),提出一种综合计算概念间语义相似度和相异度值来衡量数据对象势值的新方法,并以此为依据设计了一种对待映射大规模本体的规模进行约简的新算法。 (5)提出一种基于生物信息学双序列比对的概念语义相似度计算新方法。通过分析前人提出的中文本体映射系统中的概念相似度计算方法,发现其并没有考虑组合概念中,原子概念的语序敏感和一词多义现象对构建两个组合概念之间映射关系质量的影响。为了解决该问题,提出将其抽象为全局序列比对问题,基于动态规划的思想,并引入Needleman-Wunsch全局比对算法进行组合概念之间的语义相似度计算。理论上和实践均表明,采用基于NW算法的概念全局比对相似度计算方法,可以有效地规避采用传统方法可能带来的错误映射。