基于SQL Server的本体储存研究

来源 :电脑知识与技术·学术交流 | 被引量 : 0次 | 上传用户:p244150486
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:本体合理有效的存储是保证本体共享利用的前提,现有的关系数据库本体存储模式在存储本体后会出现查询推理效率低、维护困难等问题。文中在分析现有模式的基础上,针对本体类和属性的特点,给出了本体存储模式的设计原则,并基于该原则提出了一种新的本体存储模式。该模式针对本体描述语言的特点,将本体查询常用的信息存放在不同的表中。整个模式易于理解,结构稳定,并且减少了本体查询时进行表连接的代价,提高了查询效率。
  关键词:本体;关系数据库;存储模式
  中图分类号:TP311文献标识码:A文章编号:1009-3044(2008)19-30017-02
  Ontology Storage Schema Based on SQL Server
  ZHOU Xuan-ji
  (Zhejiang Shuren University, Hangzhou 310018, China)
  Abstract: The rational storage of ontology is the premise of the shareable use of ontology.Under current ontology storage schema, some problems such as difficult maintenance, low query and inference speed may appear after ontology storing in relational databas. Firstly current ontology storage methods are analyzed. Secondly ontology storage schema is designed according to ontology characteristic. The principle of designing ontology storage schema is given and a new storage schema is proposed based on the principle. In this schema, according to the characteristics of ontology description language, frequently queried information is stored in multiple tables, which makes the schema understandable and stable. Furthermore the schema can increase the query efficiency by reducing the cost of table join.
  Key words: ontolog;relational databas;storage schem
  
  1 引言
  
  随着 Internet 应用的普及和快速发展,组织和个人之间,软件系统之间的交流与协作越来越重要。面对信息的海洋,如何组织、管理和维护海量信息,并为用户提供有效的服务也就成为一项重要而迫切的研究课题。为了适应这些要求,本体作为一种能在语义和知识层次上描述信息系统的概念模型建模工具,已在信息系统的许多领域得到广泛的应用。那些早期的语言标准和工具无法满足广泛存在的Web应用,所以研究者们开始重新研究Web环境下的本体。尤其是语义Web环境下的本体。随着语义网络中本体中资源的增加,本体的规模越来越大,结构越来越复杂,此时,本体的存储管理效率成为人们普遍关注的问题。如何在本体存储管理系统中设计高效的本体存储模式,合理的存储大规模的本体,支持高效的本体存储管理是一件很有意义且具有挑战的任务,而本体的合理有效的存储是保证本体共享利用的前提。
  
  2 研究背景的介绍
  
  2.1 本体存储研究的背景及意义
  随着语义网络中本体资源的增加,本体的规模越来越大,结构越来越复杂,此时,本体的存储管理效率成为人们普遍关注的问题。如何在本体存储管理系统中设计高效的本体存储模式,合理的存储大规模的本体,支持高效的本体存储管理是一件很有意义且具有挑战的任务,而本体的合理有效的存储是保证本体共享利用的前提。所以如何有效存储大规模本体的数据和关系仍然是本体存储面临的一个重要问题。而现有的本体存储模式不能满足大规模本体的存储。所以对于本体存储模式的研究还是很有必要的。
  2.2 本体及其存储方法的介绍
  2.2.1 本体的概念
  本体的概念最初起源于哲学领域,它在哲学中的定义为“对世界上客观存在物的系统地描述,即存在论,是客观存在的一个系统的解释或说明,关心的是客观现实的抽象本质。后来在信息系统、知识系统等领域,越来越多的人研究本体,并给出了许多不同的定义。其中最著名并被引用得最为广泛的定义是由Gruber提出的,“本体是概念化的明确的规范说明”。后来,Brost对此稍作修饰,提出:“本体是共享概念模型的形式化规范说明”。本体的概念包括四个方面的内容:
  1) 概念化(conceptualization):抽象出客观世界的现象一些相关概念而得到的概念模型,即概念系统所蕴含的语义结构,是对某一事实结构非正式的约束规则,可以理解和/或表达为一组概念(如实体、属性、过程)、定义和关系;
  2) 明确(explicit):所使用的概念及这些概念的约束都有明确的定义;
  3) 形式化(formal):计算机可读的;
  4) 共享(share):本体中反映的知识是其使用者共同认可的。
  人们认为本体是某个领域内(可以是特定领域的,也可以是更广的范围)不同主体(人、代理、机器等)之间进行交流(对话、互操作、共享等)的一种语义基础,即由本体提供明确定义的词汇表,描述概念和概念之间的关系,作为使用者之间达成的共识。因此,本体的用途包括交流、共享、互操作、重用等等。
  2.2 本体的描述语言
  从本体整体设计的要求来看,本体的构建应是在抽象客观现象相关概念的基础上形成的概念模型(Concep-tualization),并以其包含的知识和概念集的共同性达到各方的认可而共享(Share);它的概念类型、约束条件及使用都应有显式的描述,并能由机器自动化处理而体现其明确(Explicit)的形式化(Formal)。工程实践中,领域本体的设计和开发往往要依赖于具体的描述语言和工具软件的支撑。对于语义Web而言,本体的表示应该是以Web数据表示和交换的标准化语言为基础。
  
  3 本体的存储介绍
  
  语义网络的应用需求促进本体数据管理工作的发展,目前已经出现了若干本体存储管理系统,按照存储介质不同可以分为基于主存、基于文件系统和基于关系数据库三类本体存方法。
  3.1 基于主存的存储方法
  这一类的本体数据管理工作的特点是将本体数据全部导入内存,按照某种结构进行组织;在内存结构上执行数据的查询操作。这种方法具有较高的运行效率,但是只能处理有限规模的数据。由于是内存数据管理,不存在磁盘更新的问题。OWLim,OWLJessKB和文献是典型的基于主存的本体存储管理系统。
  3.2 基于文件系统的存储方法
  基于文件系统的存储:该方式实现起来比较简单,很多本体相关工具都支持对文件格式的本体进行存取。但是,这种方法不仅效率低,而且很难适应数据量较大的情况。基于文件系统的存储方式一般只适用于规模比较小的本体,对于规模比较大的本体需要大量的内存管理工作,而对于直接以XML格式这样子一种树形结构组织的文件来表示的RDF数据,当件很大时,要把握RDF模型数据全局的结构,必须通过对文件进行反复的扫描,大量的数据换进换出工作,对系统的效率是一个很大的考验。而且为了保证系统的并发性,必须要建立相关的并发控制和事务管理系统。早期的一些本体数据管理工作是基于文件系统实现的,它们用简单的文件格式存储本体数据并支持一些基本的操作。这类工作主要用来编辑和建立体,并不是为大规模本体数据的存储和查询管理服务的,例如OntoEdit,Protégé。
  3.3 基于关系数据库的存储方法
  该方式是将本体按照一定的策略组织在数据库中,利用现有的数据库系统对数据的操纵和管理能力来存取本体。由于关系数据库技术发展成熟,大多数现有的本体数据管理工作使用关系或对象-关系数据库管理系统作为后台存储,代表系统包括Sesame,Rstar,Jena,3store,Minerva等等。基于关系数据库存储本体可能有多种模式设计,现有的包括早期的水平式、垂直式、分解式、混合式和后来广泛为本体存储管理系统采用的Sesame for RDB存储模式及Sesame for ORDB存储模式。
  
  4 基于关系型数据库的存储设计
  
  OWL是W3C最新的推荐标准。与早期的语言相比,OWL具有更强的描述能力,支持更多的推理。本节重点讨论基于关系数据库的OWL本体的存储模式设计。与RDF相比,OWL引入了更多的本体描述词汇,例如Class,property,individu-al,subClassOf,subPropertyOf,different From equivalentClass,e-quivalentProperty,sameIndividualAs等。这表明,在OWL本体中对这些信息的查询需求比较多。所以,可以将这些常用的本体查询信息抽取出来,单独存放。这样不仅使表结构清晰,而且可以减少查询时进行表连接的代价,提高效率。
  OWL使用URI来唯一的标识本体中的资源,而URI是由namespace和localname组成的,所以,这些信息应该组织到一张资源表中。又因为OWL本体中的资源严格区分为类(class)、属性(property)和实例(individu-al),所以该表使用字段type记录资源的类型(类、属性和实例)。
  OWL使用subClassOf,subPropertyOf,e-quivalentClass和equivalentProperty来描述类(或属性)之间的基本关系(层次关系和等价关系)。在OWL本体中经常需要查询这些关系,所以本文将这些信息分别组织在单独的表中,从而提高对相应关系查询的效率。
  
  5 存储模式的比较
  
  在现有的存储模式中,除垂直模式外,其他存储模式的表结构都不稳定,在实际应用中具有很大的局限性。所以,本文只比较本文的存储模式和垂直模式。本文以一个本体中包含的URI的个数作为衡量本体大小的标准,将这个本体处理成5个不同规模的本体,它们分别包含10×104,30×104,50×104,70×104和90×104个URI。本文将测试3种类型的查询:查询1,查找某个类的直接父类;查询2,查找某个类的所有子类。
  将不同规模的本体分别按照本文的存储模式和垂直模式进行存储,然后在这些数据库上分别作上述五种查询。对每种查询都进行30次不同的具体查询,得到平均查询时间作为该类查询的时间。在测试查询时间时,本文直接使用SQL语句来实现,而不使用某种本体查询语言,目的是为了消除将该查询语言翻译成相应的SQL语句所需时间对实验结果的影响。
  
  6 总结
  理想的本体存储模式除了具有尽量高的规范化程度,还应该满足如下原则:易于理解、结构稳定、查询效率高。基于SQL Server的本体储存正是顺应了本体存储的发展潮流。
  
  参考文献:
  [1] 谢储晖, 郭达志. 本体的研究现状及其应用[J]. 福建电脑,2003,(12):26-28.
  [2] 李曼, 王琰, 赵益宇, 杜小勇, 王珊. 基于关系数据库的大规模本体存储模式的研究[J]. 华中科技大学学报(自然科学版),2005,33(01):217-220.
  [3] 张蕾. 语义Web本体语言及owl研究[J]. 成都信息工程学院学报,2007,22(2):161-165.
  [4] 许文华, 王英林, 申生. 基于本体的重构实例存储技术[J]. 计算机工程,2006,30(24):125-127.
其他文献
摘要:《一句顶一万句》在文坛上引起强烈的震撼。本文以人文关怀为切入视角,试从生存世相演绎、人物形象刻画和精神孤独描摹等三个方面来剖析刘震云对故乡乡民真实生存状态的极大关注,从而探究作家对人物的深情悲悯与期待,解读隐藏在低调叙事表象下的浓郁乡土情怀。  关键词:刘震云 《一句顶一万句》乡土情怀人文关怀   引言  在《一句顶一万句》中,刘震云用冲淡平和的语言叙述在华北平原辐散开去,回避了历史元叙事的
摘要:应用程序安全是一个综合性的课题,它需要在权衡各方面的因素之后,再作出安全策略。因此,本文研究了 Java 应用程序安全,分析了 Java 平台自身的安全体系结构,并且还说明了安全策略的具体实施办法。通过本文的分析,使我们不但从总体上对 Java 应用程序的安全体系有比较清晰的认识,而且对安全思想也有比较深入的分析和理解。  关键词:JAVA;安全体系;安全策略  中图分类号:TP311文献标
摘要:借助GSM的手机短信远程监控技术实现油田输油管道输油状况的远程监控。通过手机短信完成油井端远端采样量传输,同时进行油库端近端采样,并通过串口发送近端采样量到PC机进行远近端采样量的比较,将结果准确及时地进行反馈。其最大特点是远近端的采样、传输和处理是全自动的,给用户提供了一个轻松的环境。  关键词:GSM;手机短信;输油状况;采样;远程监控  中图法分类号:TP278 文献标识码:A 文章编
吴睿峰  1971年生于四川成都。自幼習画,笔耕30余年,致力于写意花鸟。现为国家一级美术师,四川乡情国画院院长,知行堂主人。  在见到他之前,就听闻了他的许多成就:四川乡情国画院院长、知行堂主人、国家一~级美术师,曾经还是国家级羽毛球运动员等等。想象中他的形象应该是身材魁梧,长发披肩,不拘言笑的“画像”,及至见到他时,欣长匀称高大的身段,温文儒雅的坐在一张精致的茶桌边上,谈吐不疾不徐,条理分明又
摘要:针对FP算法的缺陷,将OLAP技术和Apriori关联规则相结合,提出了一种针对FP算法的改进的多层次关联规则数据挖掘算法,在分析了关联规则数据挖掘结构的基础上,给出了该算法的思想与执行步骤,对于关联规则数据挖掘的研究具有一定的理论意义。  关键词:算法改进;多层次;关联规则;数据挖掘  中图分类号:TP312文献标识码:A文章编号:1009-3044(34)-1994-03  Multi-
摘要:介绍了采用导出/导入的方法,对医院信息系统中数据库由Oracle 8i升级至Oracle 10g的具体方案及过程,并对一些细节进行了描述。  关键词:数据库;医院信息系统;升级  中图分类号:TP311文献标识码:A 文章编号:1009-3044(2008)12-20000-00    Solution for Database Upgrade of Hospital Information
摘要:简要设计和实现了基于PC的分频器,从硬件的选配,软件的编写和调试。讨论了硬件的选择原则,并实现了最优化,从软件的编写角度考虑内存的应用情况,有助于大规模工程的实现。  关键词:PC;分频器;最优化  中图分类号:TP311文献标识码:A文章编号:1009-3044(2008)14-20950-02    1 分频器的设计和实现思路    分频器就是能够将输入频率通过器件的作用在输出时变为原来
摘要:实现了基于VFP的非OLE方式多媒体数据快速处理,提出了一种简化数据库管理,节省了大量存储空间,且编程简单,快速的多媒体信息处理技术。  关键词:VFP;OLE;多媒体数据快速处理  中图分类号:TP391.41文献标识码:A文章编号:1009-3044(2008)25-1545-02  Fast Disposal Technology of Datas in Media Based on
摘要:分布式拒绝服务攻击(DDoS)已经成为互联网最大的威胁之一。分析了校园网现状,建立了业务模型,提出了流量清洗设备的功能要求,设计了一种校园网DDoS 攻击防御平台的设计方案。并分析了DDOS 攻击清洗方案的流量牵引技术、触发技术、流量清洗技术与流量回注技术。  关键词:网络安全;分布式拒绝服务攻击;流量控制;流量清洗  中图分类号:TP393文献标识码:A文章编号:1009-3044(200
摘要:伴随着我国计算机技术的不断改革与发展,世界各个行业与单位都开始在工作中进一步使用计算机技术,使得计算机技术得到了前所未有的发展与进步。但是虽说计算机技术在各大领域中都得到了飞速发展,但其本身的网络安全防护技术仍有很多问题,亟待人们去解决。该文主要对计算机网络安全保护技术进行了分析与探讨,为以后计算机网络安全防护提供有效防护措施以及参考依据。  关键词:计算机;网络安全;防护技术  中图分类号