基于本体的学前教育资源建模研究

来源 :电脑知识与技术·学术交流 | 被引量 : 0次 | 上传用户:skyboy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:由于传统web资源存在着先天的局限性,网络中的资源描述缺乏语义信息,往往很难进行语义层面上的推理和检索。本体是共享概念模型的明确的形式化的规范说明,通过概念之间的关系来描述概念的语义。本文通过将本体构建技术应用于学前教育学科资源的构建中,构建的学前教育学科实验本体,初步实现了对该实验本体的查询和推理。
  关键词:本体;学前教育;领域本体;本体构建;本体语言
  中图分类号:TP182文献标识码:A文章编号:1009-3044(2008)33-1452-02
  
  Research on Building Ontology for Preschool Education
  XU Liang,CHENG Lei-lei
  (1.Nanjing Normal University, Nanjing 210097, China)
  Abstract: Because of the shortcomings of the constructions of the internet, the recourses in the web are always lack of semantic information. As a result, it is very hard to search and reason. Ontology is a formal, explicit specialization of a shared conceptualization and provides semantic meaning throng relations between concepts. This paper discusses the concept of ontology, introduces the principle and method of construction for ontology.
  Key words: ontology; preschool education; domain ontology; construction; ontology language
  
  1 引言
  本体技术作为语义Web的重要组成部分,其在知识组织和管理中的作用受到了广泛的关注。目前在本体的研究方法等方面取得了一定的进展,但是针对特定领域和特定学科的研究还不多见。本体的建模是整个语义Web研究的核心和关键,本文针对学前教育学科的领域知识,结合本体构建的一般性规律,探讨学前教育资源领域本体的建模。
  
  2 本体建模研究现状
  针对传统Web中存在的资源格式混乱、信息无序、数据缺乏语义信息的问题,利用本体知识和语义Web变无序信息为有序信息,帮助计算机理解Web信息就显得很有必要了。所谓本体建模指的是利用领域本体组织领域资源的基本思路,即是在资源集合的上层构建一个反映领域资源知识结构的领域本体概念模型,以此为基础对资源进行基于语义的标注,提供基于语义的资源浏览与检索。所以,怎样构建领域本体已经成为一个新的研究热点,在实践中也产生了一些面向不同应用需求的本体构建方法,如IDEF-5法、骨架法、企业建模法、Methontology法、循环获取法、七步法等。在学科领域本体的构建过程中,初始核心本体的获得是关键。目前大致有两条获得路径:一是通过知识获取技术从现有的学科数据库中提取专业术语,挖掘、发现学科的基本概念,再由领域专家确认并建立概念关联;二是在传统的知识组织体系如分类法和主题词表中转换改造为初始核心本体。目前国内外关注的焦点是主题词表与本体的改造、融合及转换。
  在领域本体的建设中,本体进化至关重要。本体进化也称本体学习或本体演化,即是在初始核心领域本体基础上,依据一定的理论、 技术和标准,对本体概念结构、概念及关系不断进行丰富、完善、改进、更新和评估的过程和方法。新概念的获取及概念关系的关联是本体进化的重点和难点。近些年来,这方面的研究开始引起学界的关注,对于概念的获取,国外目前提出了三类方法,即基于语言学的方法、基于统计的方法、结合语言学和统计学技术的混合方法。国内这方面的研究主要有利用Bootstrapping的机器学习技术、采用非线性函数与“成对比较法 ” 相结合的方法、将统计方法与规则方法相结合的专业领域术语抽取算法等。
  对于概念间关系的获取,国外研究也很多,常用的方法有:基于模板的方法、基于概念聚类的方法、基于关联规则的方法、基于词典的方法及使用若干种方法的混和方法等。
  
  3 学前教育资源实验本体构建
  转换改造传统主题词表中的分类概念和主题概念,是获得学科领域本体初始核心概念的科学方法。因为领域本体的基础是概念系统,主题词表也是分类概念和主题概念及关系的集合,其基本功能和本体具有一致性。主题词表广泛使用于各个学科领域,因此从中选择某一领域,将其改造转换为初始核心本体的基础,是一种比较科学、简便且实用的学科领域本体构建方法。应此,笔者通过设计挖掘程序发现得到主题词表,然后建立概念关联的方法来构建学前教育资源实验本体。
  3.1 实验本体构建步骤
  当前对构造本体的方法和方法的性能评估还没有一个统一的标准,不过在构造特定领域本体的过程中领域专家的参与是很有必要的。由领域专家和语言学家共同确定该领域的基本词汇和词汇间的关系。由于领域本体往往都是很庞大的,如果单纯采用手工构建,工作量是很大的。如果我们能够搜集足够多的领域训练文本,从这些文本中抽取出该领域的基本词汇,再利用某种技术得到这些词汇之间的关系。就可以实现领域的自动构建。这样做在理论上是行得通的,缺点就是大量训练文本的获取存在困难,往往导致最终的结果不太准确。这里采用的方法是采用对训练文本进行处理得到主题词表,然后人工介入建立概念与实例之间的关联的方法。
  具体的过程与步骤如下:
  1) 获得训练文本。
  针对学前教育网络资源,笔者从各大学前教育资源网站(中国学前教育网、北京学前教育网、上海学前教育网等)获得200份语料数据,采用平均分布的方式涵盖各个栏目的内容包括幼教新闻、幼教资源、家庭教育、活动教案等多个栏目。
  2) 对训练文体进行预处理。
  对得到的训练文本首先进行分词,然后对照停用词表和虚词表剔除停用词,计算出各个词的权重,根据权重对其进行正规化。这样得到一个根据训练文本得出的权重最高的主题词表。
  3) 建立概念关联。
  我们知道本体的关键内容就是描述概念和概念之间的相互关联,概念的定义一般采用框架结构,包括概念的名称与其他概念之间关系的集合,以及用自然语言对该概念的描述。有四种基本的关系:is-a(继承关系)、part-of(部分与整体的关系)、instance-of(概念实例与概念的关系)和attribute-of(属性关系)等等。在得到主题词表之后,我们根据领域知识对其首先区分出概念、实例和属性,然后根据这四种基本关系建立概念、实例和属性之间的关联。
  
  图1
  
  本文对本体层次关系图建模如下:
  OH = (ConceptLayer,InstanceLayer,Assoc);即本体层次关系图是一个三元组,由概念层、实例层和两者之间的关联构成。其中概念层 CL 是一个偏序集(c,p),其中c是一个有限的概念集, p是 c 的一个偏序。而实例层InstanceLayer = {Instancei|i = 1,n}:即实例层是由具体的学前教育资源所构成的;Instance = {(Inamei,Iurli)|i = 1,n}:表示一个实例是由实例的名字和实例的 url 地址所组成的二元组。
  3.2 实验分析
  在建立了概念关联之后,笔者使用standford大学的本体建模工具protégé设计出学前教育资源试验本体(preschool_onto),本体的结构如图1所示。
  为了便于以后的语义推理与检索,笔者将该实验本体保存为owl格式,该实验本体的代码片段如下:
  <owl:Ontology rdf:about="urn:eduonto/"/>
  <owl:Class rdf:about="urn:eduonto/kindergarten">
  <rdfs:comment rdf:datatype="http://www.w3.org/2001/XMLSchema#string"
  >幼儿园</rdfs:comment>
  <rdfs:subClassOf>
  <owl:Restriction>
  <owl:onProperty>
  <owl:ObjectProperty rdf:about="http://swrc.ontoware.org/ontology#hasParts"/>
  </owl:onProperty>
  <owl:allValuesFrom>
  <owl:Class rdf:about="urn:eduonto/Institute"/>
  </owl:allValuesFrom>
  </owl:Restriction>
  </rdfs:subClassOf>
  <rdfs:subClassOf>
  <owl:Class rdf:about="urn:eduonto/Organization"/>
  </rdfs:subClassOf>
  </owl:Class>
  <owl:Class rdf:about="urn:eduonto/WebSite">
  <rdfs:subClassOf>
  <owl:Class rdf:about="urn:eduonto/Organization"/>
  </rdfs:subClassOf>
   <rdfs:comment rdf:datatype="http://www.w3.org/2001/XMLSchema#string"
  >教学网站</rdfs:comment>
  </owl:Class>
  通过学前教育资源实验本体的构建和对本体构建方式的研究,构建出的学前教育实验本体在进行推理和检索时对于关键词的推理和解释能力有了较大的提高,有助于在信息检索和推送时改善查全率和查准率。
  
  4 结论
  本文在对国内外领域本体构建方法及本体进化的研究现状进行概述的基础上,立足学前教育领域的学科现状,以机器学习的方式获得概念词集,并通过领域知识明确概念及其与本体概念之间的关联,并在此基础上构建了实验本体,该本体是初步的、不完善的,都需要进一步深入研究和试验。
  
  参考文献:
  [1] 黄伟. 本体构建与语义集成研究[D]. 硕士学位论文,东南大学计算应用专业,2005.
  [2] 陈刚,陆汝钤,金芝.基于领域知识重用的虚拟领域本体构造[J]. 软件学报,2003,14(3):350-355.
  [3] John Davies,Dieter Fensel,Frank Van Harmelen. Towards the Semtic Web2 Ontology2 Driven Knowledge Management[M] . West Sussex,Eland: John Wiley
其他文献
目的探讨标准腹压下腹腔镜胆总管探查术治疗胆囊结石合并胆总管结石的效果。方法选取2017年10月—2019年10月于玉山县人民医院进行治疗的胆囊结石合并胆总管结石患者75例,采
J2EE体系的核心规范EJB对于许多中小企业的Web应用显得过于厚重,急需引入一种轻量级的Web应用框架,降低系统的实现难度和开发成本。以Spring为核心,集成Hibernate、Acegi等开
<正>为做好全国绿色建筑创新奖的管理及评审工作,引导我国绿色建筑健康发展,根据《全国绿色建筑创新奖管理办法》,住房和城乡建设部重新制定了《全国绿色建筑创新奖实施细则
利用ActiveX通信控件,实现了Windows平台下微机与电子天平实时串行通信,为珠宝鉴定数据库提供实时数据,通过编制数据管理软件,动态回显及更新采集的数据,打印分级、鉴定、定
目的探讨自体角膜缘干细胞移植术联合翼状胬肉切除术对翼状胬肉患者泪膜功能的影响。方法选择2018年1月—2020年3月奉新县人民医院收治的90例翼状胬肉患者,按随机数字表法将
从氨基酸序列来预测蛋白质二级结构,是我们理解蛋白质结构和功能的重要一步。本文探讨了基于Spiking神经网络的蛋白质二级结构学习预测模型,利用单个神经网络进行学习取得的效
北京市在1999年就提出了"数字北京"发展规划,"数字北京"的提出是北京信息化发展过程中的里程碑,以此为标志,北京市信息化迈入了一个新的发展阶段,政府、企业和社会各方力量紧紧围
移动机器人技术研究中的一个重要领域是路径规划技术。综述了智能算法在移动机器人路径规划技术中的发展现状,指出了各种方法的优点与不足。最后对移动机器人路径规划技术的
通过实验研究了几组不同配方体系制得的喷涂聚氨酯泡沫的阻燃性能及其综合物理性能,结果表明通过选择适当的聚醚体系和提高异氰酸指数,可制得阻燃性能达到B1级且符合GB50404
利用动画制作多媒体课件说明原理和过程,在许多情况比录像的效果更好。使用Flash视频制作多媒体课件可以用单机也可以添加到网页中播放,它将视频与数据、图形、声音和动态交