大规模中文关联数据构建关键技术研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:billdyj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语义web技术使互联网用户可以更好的获取多种信息和相关服务,通过为互联网信息增加语义将使“更多的信息变得更有用”。语义web的远景和目标是实现数据之网(Web of Data),数据以多种方式进行描述并以相应的语义链接为基础构成上下文,而本体(Ontology)和知识库(Knowledge Base,KB)的构建工作则被视为语义网发展的前提条件和基石。  关联数据(Linked Open Data,LOD)项目作为语义网发展的重要组成部分,其目标是将web上已经发布的语义数据集之间进行最大限度的关联,以使得各自孤立的语义知识点可以互相关联进而最终形成大规模知识网络,从而使得知识共享和语义互操作成为可能,同时,如果将分散的数据源链接起来形成一个互联的数据之网,则形成的知识网络就会具有更高的价值,由此便可催生不同领域的网络新应用出现。自从万维网之父Tim Berners-Lee提出关联数据的概念至今,相关研究已经越来越来受到学者的关注。本文重点关注关联数据构建的关键技术研究,包括以下三个研究点:  (1)领域本体的自动化构建  在进行大规模领域本体的构建时,基于手工方式的构建模式效率较低并且可行性较差。为了解决大规模领域本体库的自动化构建问题,利用中文百科与政务叙词表都具有跨领域覆盖的特点,提出了一种领域叙词表与网络百科知识库相融合的两阶段领域本体自动化构建方案。  (2)面向中文网络百科的知识发现  从网络百科中自动获取海量知识已经被越来越多的学者所关注。目前的研究主要关注于从英文网络百科数据源进行海量知识的抽取,而对中文或其他语言描述的数据源进行知识抽取的研究非常少。因此,为了解决中文大规模知识库的自动化构建问题,提出一种基于中文网络百科架构的大规模知识库自动构建方案。  (3)框架级(schema-level)的中文大规模关联数据系统研究  目前关联数据的研究工作主要集中在实例级别上展开,而对于框架级别的关联数据构建则易被忽视。同时,本体映射被视为框架级别关联数据构建的典型场景。特别地,中文知识是网络开放知识库的重要组成部分,但现有的中文本体映射系统在面对大规模本体映射任务时,显得效率较低且可用性不高,目前仍缺乏针对中文大规模本体映射的相关系统。为了解决框架级别上的中文大规模关联数据构建问题,提出了一种基于同义词词林的大规模中文关联数据构建模型。  本研究主要包括以下研究内容和创新点:  (1)提出一种领域叙词表与网络百科知识库相融合的两阶段领域本体自动化构建方法。在第一阶段,进行叙词表至本体的粗映射,形成领域粗糙本体。在第二阶段,将网络开放百科中的结构化知识与粗糙本体进行自动融合、自适应调整和扩充,进而形成含有丰富语义信息的、良构的领域本体库。基于提出的两阶段方法,以中国电子政务领域为例,自动化地构建一个大规模中文本体框架,进而验证了该方法的可行性和有效性。  (2)提出一种面向中文网络百科非结构化信息的知识获取方法。大规模开放域知识库的构建方案由以下两个步骤构成。首先,对知识三元组中的主语和宾语之间的语义关系进行自扩展学习,即:新词发现。其次,基于条件随机场和支持向量机协同分类器,对标注出的属性和属性值实体之间的语义关系进行预测。基于该方案,自动化地构建了大规模开放域中文知识库。  (3)提出一种新的面向中文大规模本体映射模型的总体框架。随着本体规模的扩大,如何保证本体映射的效率就成为亟待解决的问题。本研究提出的本体映射总体框架由三大功能模块组成,分别是:本体概念初始相似度计算、本体压缩和确定性映射。首先,采用基于编辑距离和同义词词林相结合的多策略融合方法来计算待映射本体之间的概念初始关联度。其次,基于概念初始相似度对待映射本体的规模进行压缩。最后,根据中文概念特有的语义特征,通过引入序列比对思想,提出一种新的中文本体概念等价关系确定性映射策略。  (4)提出了一种对大规模本体映射规模进行压缩约简的新方法。传统的本体映射系统和方法往往只注重映射结果,而忽视了映射效率。在面对大规模本体映射任务时,传统方法显得实用性不强。本研究在对中文大规模本体进行等价关系的确定性映射前,提出将时间复杂度控制在可接受的范围内。提出了一种新的数据场势函数,对大规模本体首先进行映射规模的约简和压缩。在对原始拟核力场势函数进行改进的基础上,基于《同义词词林》(扩展版),提出一种综合计算概念间语义相似度和相异度值来衡量数据对象势值的新方法,并以此为依据设计了一种对待映射大规模本体的规模进行约简的新算法。  (5)提出一种基于生物信息学双序列比对的概念语义相似度计算新方法。通过分析前人提出的中文本体映射系统中的概念相似度计算方法,发现其并没有考虑组合概念中,原子概念的语序敏感和一词多义现象对构建两个组合概念之间映射关系质量的影响。为了解决该问题,提出将其抽象为全局序列比对问题,基于动态规划的思想,并引入Needleman-Wunsch全局比对算法进行组合概念之间的语义相似度计算。理论上和实践均表明,采用基于NW算法的概念全局比对相似度计算方法,可以有效地规避采用传统方法可能带来的错误映射。
其他文献
论文全文共分为五章.第一章简述了管理信息系统的相关概念、特点,论述了管理信息系统的应用现状及发展趋势,阐述了论文进行的背景及意义.第二章从管理信息系统的战略规划、应
鉴于目前GIS领域存在着上述的问题,空间数据库理论的研究成为GIS软件发展的一个关键问题,空间数据模型和空间对象运算的研究是空间数据库理论最基本最核心的问题,用代数的形
计算机支持的协同工作CSCW(Computer Supported Cooperation Work)融会了计算机的交互性、网络的分布性以及多媒体的综合性,使群体成员在时间和空间上分布的情况下相互通信、
该文讨论了利用Petri网建模和进行计算机网络性能评价的方法.全文共分五个部分:第一章,引论,主要介绍计算机网络性能评价的方法,Petri网理论的发展与应用以及随机Petri网理论
迅猛发展的网络信息技术,正在影响和改变着人们的工作、学习和生活方式.随着数字校园建设的不断深入,基于校园网的应用服务急剧增加.然而,各个应用服务都有自己独立的一套安
随着计算机网络技术和通信技术的进一步发展,人们不仅对家居的自动化和信息化程度要求越来越高,而且对家用设备控制的灵活性以及对外部信息获取的便捷性提出了更高的要求.这
数字水印是一种嵌入到图像、视频或者音频数据中的不可见标志,通过对水印信息的检测可达到保护多媒体数据版权的目的.基于数字水印的图片版权保护具有显式水印和隐式水印两种
论文分为以下七个章节介绍研究的详细过程:第一章简要介绍了"基于角色的访问控制模型的研究"课题的意义和目的,阐述了论文所要研究的主要内容,分析了三种访问控制策略的特点,
该文从理论上研究和探讨了分布式环境下组件化的CNGIS,刚C++语言、COM/DCOM和ASP等技术设计并实现了基于Client/Server与Browser/Server混合方式的CNGIS,最后对CNGIS的进行了
随着全球Internet用户数量的激增,黑客对个人网络用户的攻击次数越来越频繁,攻击的手段也越来越先进,针对个人主机的安全防护技术已经成为当前网络安全研究领域的重点。目前针对