面向数字图书馆的分面语义架构研究

来源 :现代情报 | 被引量 : 0次 | 上传用户:Seasonbaby
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  〔摘 要〕数字图书馆现有的检索引擎和检索技术由于无法提供上下文的语义信息,已经无法满足用户的检索需求。语义网技术可以很好的表达数字图书馆的内容,因此将语义网相关技术引入数字图书馆检索可以提高检索的精度。虽然数字图书馆的信息资源利用元数据表达并可以通过OAI-PMH进行访问,但是仍有很大部分需要语义网组件进行完善。在此基础上,提出了一个面向数字图书馆的通用模型的语义框架,这个框架可以满足用户高度个性化的信息需求。
  〔关键词〕数字图书馆;信息管理;语义网
  DOI:10.3969/j.issn.1008-0821.2010.12.004
  〔中图分类号〕G250.76 〔文献标识码〕A 〔文章编号〕1008-0821(2010)12-0015-03
  Research on the Faceted Infrastructure for Semantic Digital LibrariesXi Caili1 Li Ying2
  (1.Library,HuaiHai Institute of Technology,Lianyungang 222005,China;
  2.Institute of Agricultural Resources and Regional Planning of Jilin Province,Changchun 130062,China)
  
  〔Abstract〕Search engines and search techniques have fallen short of user expectations as they do not give context based retrieval.Deploying semantic web technologies would lead to efficient and more precise representation of digital library content and hence better retrieval.Though digital libraries often have metadata of information resources which can be accessed through OAI-PMH,much remains to be accomplished in making digital libraries semantic web compliant.This paper presented a semantic infrastructure for digital libraries,that will go a long way in providing them and web based information services with products highly customized to users needs.
  〔Keywords〕digital library;information management;semantic web
  
  数字图书馆是以知识概念为支撑的一种信息服务和知识服务环境。从用户的需求来看,希望数字图书馆系统能灵活地处理信息、提炼知识,通过围绕用户信息活动和用户信息系统来有效地组织集成数字信息资源和信息服务,从而方便、快捷、有效地支持用户检索、处理、利用各类信息资源[1]。因此,用户评价数字图书馆的重要指标就是其能否有效地提供知识检索服务。早期的数字图书馆所提供的知识检索工具是通过检索自身的书目数据库或链接互联网搜索引擎来发现知识。但是这种传统的检索引擎和技术无法提供基于内容的信息检索,因此很少能满足用户的需求。将语义网(Semantic web)引入数字图书馆可以更精确、更有效地表达数字图书馆的内容,从而也有利于信息查询。
  出现在语义网上的信息种类是多种多样的,包括结构化、半结构化和非结构化的数据,如何将它们映射成数据库或其他存储机制的数据实体,是语义网要解决的重要问题。元数据的出现为其提供了良好的解决途径。数字图书馆中元数据的功能是用来表述书目数据的信息内容。虽然可以通过OAI-PMH获得数字数图书馆里信息的元数据,但是如何使语义网和元数据兼容还有许多工作需要完成。本文尝试提供一个面向数字图书馆的通用模型的语义架构。分面本体只是其中的一个方式,利用这种模型可以通过不同的方式来构建本体以提高数字图书馆的检索效率。
  1 元数据标准
  元数据(Metadata)最简明抽象的定义就是“关于数据的数据”(data about data),用于描述载有信息的实体的相关特征,以便标识、发现、评价和管理被描述的这些实体[2]。在数字图书馆中,元数据是查找信息资源的有力工具。为了方便讨论,这里我们把元数据粗略划分为两类:书目元数据和非书目元数据。书目元数据是建立在图书馆传统书目数据基础上的数据;非书目元数据可以是任何名词,如,人、组织、机构或商品等等。在本文中,我们把讨论集中在书目元数据。
  目前已投入使用的书目元数据标准较多,如MARC21[3]、UNIMARC[4]、DC[5]等,不同的标准导致元数据的不同标注和不同理解。这里我们选用使用比较广泛、具有代表性的DC作为本文的元数据标准。DC具有15个既可选择又可重复的核心元素,可被用于简单或复杂的元数据描述,以创建任何搜索引擎和数据库结构可用的元数据。其目的是提供能被用于任何应用软件、数据格式或者主题领域的字段和描述,是适合于任何Web资源、任何标准的元数据[6]。
  网络的出现意味着元数据标准必须通过一种语言可以被浏览器、搜索引擎或其他基于Web的互联网信息工具使用。这导致了例如可扩展标记语言(XML)元数据等等的应用。
  2 语义网相关技术
  2.1 语义网技术
  网络上存在着海量的信息,这些信息对于大多数用户都是有用的,惟一的问题是不能在正确的时间以正确的方法提供给正确的用户。这个问题产生的原因在于现有的搜索引擎没有关注到用户查询的内容含义。随着网络技术的飞速发展,现在网络信息的交流已经是“人——人”的交流,而不是“人——机器——人”的交流。如果网络上的信息是机器可以理解和处理的内容,那么检索将更有意义或更“语义的”,这就导致语义网的出现。语义网的目标是将人类知识编织成一个巨大的网络,并以机器处理的方式来实现。其中各种自动化服务将帮助用户以机器可理解的格式访问和提供信息,并使得计算机自动化处理过程和Web信息集成更为方便[7]。
  W3C已经批准了一系列网络描述语言用来表述网络上的信息资源。这一系列描述语言利用结构化的方式来表达网络信息,在处理语义时利用不同的层次来进行描述。这一系列描述语言由XML、XML Schema、RDF、RDF Schema、OWL以及SKOS组成。
  2010年12月第30卷第12期面向数字图书馆的分面语义架构研究Dec2.2 XML和特定域标记
  虽然图书馆界发展元数据标准较晚,但是XML最初的应用之一就是描述图书馆数据,数字图书馆的书目数据和记录,可以很容易地在XML中代表。然而由于元数据标准较多、形式多样的因素,基于XML的元数据集在实际检索中产生了更多的问题。如果为了实现高效和精确的检索,描述性的元数据是无法满足需要的,这种情况下,必须在基于元数据描述概念的基础上对元数据进行语义编码,这种语义不仅仅为人类所认知,同时也应该被机器理解。这就使得图书馆的工作焦点转移到基于主题索引技术使用受控词表发现知识,而不是仅仅部署图书资源。这些工作在网络上就是通过资源描述框架(RDF)和Web本体语言(OWL)表示编码的概念以及概念之间的关系来实现。
  2.3 SKOS(简单知识组织系统)
  SKOS(Simple Knowledge Organization Systems)是目前正在发展的简单知识组织描述语言,以RDF Schema设计方式来展现与分享控制的词汇[8],例如:索引典、分类系统、主题标目表、分类法、术语典、词汇表以及其他型式可以运用在语义网络架构的控制词汇。可提供以一种机器可以理解的(machine-understandable)方式表达他们词汇的结构与概念,以供交换和再使用。SKOS Core(SKOS核心词汇规格),提供以核心集的模式来表达概念体系的基本结构与内容。
  虽然这些语义网的描述语言之间有不同,但是每一种描述语言都可以在一定程度上提高我们分析网络信息语义的能力。如图1所示。在准确描述网络信息语义的基础上,利用推理引擎可以获得用户所需要的信息。推理的精度依赖于选择何种层次的描述语言。
  图1 语义表达演化示意图
  3 面向数字图书馆的分面语义架构系统模型
  3.1 模型描述
  数字图书馆的重要功能之一是提供知识组织和服务。在语义数字图书馆中的知识结构都有其对应的语义框架,这种语义框架相当于一个个主题的抽象或概括。主题是以等级树的形态组织,每个主题属于一个分面。分面包含了主题等级表,分面内的主题通常以等级的方式组织,及被分为类和子类。分面是对象或概念赖以描述的基本范畴,很多这样的分面共同构成一个主题域。同时,这种语义框架的实现需要依赖于本体,因此,分面本体成为语义数字图书馆实现的基础。
  本体作为共享的和通用的领域知识,可被视为具有明确语义信息且能被机器处理的数据。因此,作为语义数字图书馆中心概念的分面本体可以通过接口服务层提供语义服务。在此基础上,我们提出一个面向数字图书馆的分面语义架构系统模型。(如图2所示)图2 面向数字图书馆的分面语义架构系统模型
   3.2 主要模块功能描述
  3.2.1 语义仓库
  语义仓库对应着有关数字图书馆领域的语义分类内容方面的知识数据库。语义仓库里主要是主题词的编码、同义词的编码、词语变化的编码、语言线索的编码等等。
  3.2.2 知识结构
  知识结构是表达每一个语义分面的正式的概念层次结构。每一个主题域都是由这些语义分面有序组织形成的,这些语义分面可以通过个体、动作以及特性进行区别。如图3所示。
  图3 知识结构示意图
  3.2.3 表面结构和主题表征
  尽管语义分面是主题域的清晰分类,每个内面包含主题域的一个概念,但是表达主题内容,需要按照一定的规则生成表面字符串。这些字符串代表了分面的概念内容,可以追踪特定主题域的内容或变化。
  这些表面字符串可以通过系统内的规则表达它们之间如何进行联系的。如图4所示,我们在数字图书馆里利用基于分面本体产生的表面字符串来显示“2009年中国小麦的收获”这一主题特征。
  小麦∷收获∷中国∷2009
  收获∷小麦∷中国∷2009
  中国∷小麦∷收获∷2009
  2009∷小麦∷收获∷中国图4 主题特征例图
  3.2.4 推理
  推理模块的推理机制是在用户信息需求的基础上生成服务列表。系统接收到用户的查询,分析查询语言并进行标准化处理。在理论上,系统可以给出用户查询请求的所有的可能路径。在系统提供的建议基础上,用户可以自由修改或重新制定查询请求。接下来,推理机制对用户的查询请求进行匹配和提炼,通过与语义仓库中相关知识域的匹配,最终将用户的查询请求匹配为相关的语义分面。
  3.2.5 服务
  在这一步中,系统可以依据用户的要求和实际情况生成最终的服务结果。这一阶段的基础是互动性,通过互动可以更好地进行判断,同时为推理机制采取合理的查询路径。
  4 结 语
  数字图书馆的自然属性与语义网很接近,数字图书馆是语义网技术应用的最佳对象。这是因为,数字图书馆的结构化数据有利于实现语义网远景;同时,数字图书馆是由元数据授权形成海量信息数据,而元数据在Web上仍是稀缺资源。此外,数字图书馆的内容一般都有特定的范围,因此它更容易构建包含分面本体的语义网系统。
  基于语义网的数字图书馆是未来的发展趋势,但是这其中也有许多关键技术需要解决,其中突出的问题是如何对数字图书馆中的知识数据库进行语义描述,达到语义互联和语义互操作;另外,如何有效的利用元数据等知识标注语言对数据资源进行语义描述,通过单一语义映像和多层语义互联,将知识库群从多个不同类型的语义空间变换并整合到一个统一的资源空间等等都是以后需要迫切解决的问题。
  
  参考文献
  [1]刘柏嵩.ODL:一种新型基于本体的数字图书馆[J].大学图书馆学报,2005,(3):11-15.
  [2]常娥,何琳,侯汉清.元数据自动生成技术研究[J].情报理论与实践,2006,(5):608-612.
  [3]MARC 21 concise format for bibliographic data[EB/OL].http:∥www.loc.gov/marc/bibliographic,2010-06-12.
  [4]UNIMARC-a brief overview[EB/OL].http:∥www.unimarc.net/brief-overview.html,2010-06-12.
  [5]Dublin Core Metadata Initiative:Dublin Core Metadata Element Set,Version 1.1[EB/OL].http:∥dublincore.org/documents/dces,2010-06-12.
  [6]陈虹涛,李志俊.元数据的标准规范及其互操作性[J].情报杂志,2005,(7):93-95.
  [7]张鼐.本体在语义Web中的应用研究[J].情报科学,2007,(8):1240-1243.
  [8]SKOS Simple Knowledge Organization System Reference[EB/OL].http:∥www.w3.org/TR/2009/REC-skos-reference-20090818,2010-06-12.
  [9]Jingna Li,Jingsha He.A User-Centric Model for Supporting Web Services[A].International Multi-Conference on Computing in the Global Information Technology(ICCGI07),2007.
其他文献
五年前,区委、区政府在“九五”期间“十大强区富民工程”的基础上,提出了“十五”期间“项目带动战略”,促进未央经济上挡升级跨跃发展,实现未央经济量的扩张和质的飞跃。五年来
分析了已开采的保德煤矿8号煤层瓦斯涌出特点主要有:采空区瓦斯涌出量大;局部瓦斯积聚严重;大气压变化时,采空区瓦斯大量涌出;瓦斯相对涌出量小,绝对涌出量大;瓦斯抽放困难;瓦斯含量
一、关中开发带已经成为成果转化、示范和产业化的基地 关中高技术产业开发带,是我省人才、技术、高科技企业高度聚集的地区。经过十几年的发展,已形成4个国家开发区、2个省级
随着中国城镇化建设的不断推进和对外开放国策的不断深入,中国建筑师正面临着越来越高的职业要求、一方面,国内建筑业发展由粗放式向精细化转型,要求建筑师承担更多责任,不断提升
在概括云计算基本原理及其特点的基础上,探讨了云计算技术的发展带给网络信息资源开发与利用的新模式,以及我国网络信息资源开发与利用的现状和网络信息资源配置的不足之处,
针对开滦(集团)林西矿业公司4·25瓦斯爆炸事故,从工程设计、审批、施工、安全技术管理等方面,客观分析了导致事故发生的原因,提出值得各级管理层反思的问题。
阐述了晋城煤业集团赵庄矿在构建安全长效机制时,从机构设置、人员配置、安全宣传教育、安全文化等多方面着手,将赵庄矿建设成为安全型矿井.
〔摘 要〕文章基于服务定位和差别化理论体系,阐述了图书阅览的服务机制,运用服务定位和差别化理论,加强在高校阅览服务方面的建设,提升高校阅览部门的服务质量和效率。  〔关键词〕服务定位;差别化;图书馆;阅览  〔中图分类号〕G252.2 〔文献标识码〕A 〔文章编号〕1008-0821(2009)01-0014-03    Study on Reading Service of University
随着计算机和网络的快速普及与进一步发展,网络数字信息资源已发挥了越来越重要的作用,要解决信息需求的无限性与信息资源的有限性和不均衡性之间的矛盾,图书馆界正在探索依
哈大齐工业走廊公共产品的建设对于推动哈大齐工业走廊整体的发展具有重要意义。从哈大齐工业走廊内公共产品建设现状和存在的问题上看,探讨实现走廊内公共产品高效建设目标的