论文部分内容阅读
摘要:由于传统web资源存在着先天的局限性,网络中的资源描述缺乏语义信息,往往很难进行语义层面上的推理和检索。本体是共享概念模型的明确的形式化的规范说明,通过概念之间的关系来描述概念的语义。本文通过将本体构建技术应用于学前教育学科资源的构建中,构建的学前教育学科实验本体,初步实现了对该实验本体的查询和推理。
关键词:本体;学前教育;领域本体;本体构建;本体语言
中图分类号:TP182文献标识码:A文章编号:1009-3044(2008)33-1452-02
Research on Building Ontology for Preschool Education
XU Liang,CHENG Lei-lei
(1.Nanjing Normal University, Nanjing 210097, China)
Abstract: Because of the shortcomings of the constructions of the internet, the recourses in the web are always lack of semantic information. As a result, it is very hard to search and reason. Ontology is a formal, explicit specialization of a shared conceptualization and provides semantic meaning throng relations between concepts. This paper discusses the concept of ontology, introduces the principle and method of construction for ontology.
Key words: ontology; preschool education; domain ontology; construction; ontology language
1 引言
本体技术作为语义Web的重要组成部分,其在知识组织和管理中的作用受到了广泛的关注。目前在本体的研究方法等方面取得了一定的进展,但是针对特定领域和特定学科的研究还不多见。本体的建模是整个语义Web研究的核心和关键,本文针对学前教育学科的领域知识,结合本体构建的一般性规律,探讨学前教育资源领域本体的建模。
2 本体建模研究现状
针对传统Web中存在的资源格式混乱、信息无序、数据缺乏语义信息的问题,利用本体知识和语义Web变无序信息为有序信息,帮助计算机理解Web信息就显得很有必要了。所谓本体建模指的是利用领域本体组织领域资源的基本思路,即是在资源集合的上层构建一个反映领域资源知识结构的领域本体概念模型,以此为基础对资源进行基于语义的标注,提供基于语义的资源浏览与检索。所以,怎样构建领域本体已经成为一个新的研究热点,在实践中也产生了一些面向不同应用需求的本体构建方法,如IDEF-5法、骨架法、企业建模法、Methontology法、循环获取法、七步法等。在学科领域本体的构建过程中,初始核心本体的获得是关键。目前大致有两条获得路径:一是通过知识获取技术从现有的学科数据库中提取专业术语,挖掘、发现学科的基本概念,再由领域专家确认并建立概念关联;二是在传统的知识组织体系如分类法和主题词表中转换改造为初始核心本体。目前国内外关注的焦点是主题词表与本体的改造、融合及转换。
在领域本体的建设中,本体进化至关重要。本体进化也称本体学习或本体演化,即是在初始核心领域本体基础上,依据一定的理论、 技术和标准,对本体概念结构、概念及关系不断进行丰富、完善、改进、更新和评估的过程和方法。新概念的获取及概念关系的关联是本体进化的重点和难点。近些年来,这方面的研究开始引起学界的关注,对于概念的获取,国外目前提出了三类方法,即基于语言学的方法、基于统计的方法、结合语言学和统计学技术的混合方法。国内这方面的研究主要有利用Bootstrapping的机器学习技术、采用非线性函数与“成对比较法 ” 相结合的方法、将统计方法与规则方法相结合的专业领域术语抽取算法等。
对于概念间关系的获取,国外研究也很多,常用的方法有:基于模板的方法、基于概念聚类的方法、基于关联规则的方法、基于词典的方法及使用若干种方法的混和方法等。
3 学前教育资源实验本体构建
转换改造传统主题词表中的分类概念和主题概念,是获得学科领域本体初始核心概念的科学方法。因为领域本体的基础是概念系统,主题词表也是分类概念和主题概念及关系的集合,其基本功能和本体具有一致性。主题词表广泛使用于各个学科领域,因此从中选择某一领域,将其改造转换为初始核心本体的基础,是一种比较科学、简便且实用的学科领域本体构建方法。应此,笔者通过设计挖掘程序发现得到主题词表,然后建立概念关联的方法来构建学前教育资源实验本体。
3.1 实验本体构建步骤
当前对构造本体的方法和方法的性能评估还没有一个统一的标准,不过在构造特定领域本体的过程中领域专家的参与是很有必要的。由领域专家和语言学家共同确定该领域的基本词汇和词汇间的关系。由于领域本体往往都是很庞大的,如果单纯采用手工构建,工作量是很大的。如果我们能够搜集足够多的领域训练文本,从这些文本中抽取出该领域的基本词汇,再利用某种技术得到这些词汇之间的关系。就可以实现领域的自动构建。这样做在理论上是行得通的,缺点就是大量训练文本的获取存在困难,往往导致最终的结果不太准确。这里采用的方法是采用对训练文本进行处理得到主题词表,然后人工介入建立概念与实例之间的关联的方法。
具体的过程与步骤如下:
1) 获得训练文本。
针对学前教育网络资源,笔者从各大学前教育资源网站(中国学前教育网、北京学前教育网、上海学前教育网等)获得200份语料数据,采用平均分布的方式涵盖各个栏目的内容包括幼教新闻、幼教资源、家庭教育、活动教案等多个栏目。
2) 对训练文体进行预处理。
对得到的训练文本首先进行分词,然后对照停用词表和虚词表剔除停用词,计算出各个词的权重,根据权重对其进行正规化。这样得到一个根据训练文本得出的权重最高的主题词表。
3) 建立概念关联。
我们知道本体的关键内容就是描述概念和概念之间的相互关联,概念的定义一般采用框架结构,包括概念的名称与其他概念之间关系的集合,以及用自然语言对该概念的描述。有四种基本的关系:is-a(继承关系)、part-of(部分与整体的关系)、instance-of(概念实例与概念的关系)和attribute-of(属性关系)等等。在得到主题词表之后,我们根据领域知识对其首先区分出概念、实例和属性,然后根据这四种基本关系建立概念、实例和属性之间的关联。
图1
本文对本体层次关系图建模如下:
OH = (ConceptLayer,InstanceLayer,Assoc);即本体层次关系图是一个三元组,由概念层、实例层和两者之间的关联构成。其中概念层 CL 是一个偏序集(c,p),其中c是一个有限的概念集, p是 c 的一个偏序。而实例层InstanceLayer = {Instancei|i = 1,n}:即实例层是由具体的学前教育资源所构成的;Instance = {(Inamei,Iurli)|i = 1,n}:表示一个实例是由实例的名字和实例的 url 地址所组成的二元组。
3.2 实验分析
在建立了概念关联之后,笔者使用standford大学的本体建模工具protégé设计出学前教育资源试验本体(preschool_onto),本体的结构如图1所示。
为了便于以后的语义推理与检索,笔者将该实验本体保存为owl格式,该实验本体的代码片段如下:
<owl:Ontology rdf:about="urn:eduonto/"/>
<owl:Class rdf:about="urn:eduonto/kindergarten">
<rdfs:comment rdf:datatype="http://www.w3.org/2001/XMLSchema#string"
>幼儿园</rdfs:comment>
<rdfs:subClassOf>
<owl:Restriction>
<owl:onProperty>
<owl:ObjectProperty rdf:about="http://swrc.ontoware.org/ontology#hasParts"/>
</owl:onProperty>
<owl:allValuesFrom>
<owl:Class rdf:about="urn:eduonto/Institute"/>
</owl:allValuesFrom>
</owl:Restriction>
</rdfs:subClassOf>
<rdfs:subClassOf>
<owl:Class rdf:about="urn:eduonto/Organization"/>
</rdfs:subClassOf>
</owl:Class>
<owl:Class rdf:about="urn:eduonto/WebSite">
<rdfs:subClassOf>
<owl:Class rdf:about="urn:eduonto/Organization"/>
</rdfs:subClassOf>
<rdfs:comment rdf:datatype="http://www.w3.org/2001/XMLSchema#string"
>教学网站</rdfs:comment>
</owl:Class>
通过学前教育资源实验本体的构建和对本体构建方式的研究,构建出的学前教育实验本体在进行推理和检索时对于关键词的推理和解释能力有了较大的提高,有助于在信息检索和推送时改善查全率和查准率。
4 结论
本文在对国内外领域本体构建方法及本体进化的研究现状进行概述的基础上,立足学前教育领域的学科现状,以机器学习的方式获得概念词集,并通过领域知识明确概念及其与本体概念之间的关联,并在此基础上构建了实验本体,该本体是初步的、不完善的,都需要进一步深入研究和试验。
参考文献:
[1] 黄伟. 本体构建与语义集成研究[D]. 硕士学位论文,东南大学计算应用专业,2005.
[2] 陈刚,陆汝钤,金芝.基于领域知识重用的虚拟领域本体构造[J]. 软件学报,2003,14(3):350-355.
[3] John Davies,Dieter Fensel,Frank Van Harmelen. Towards the Semtic Web2 Ontology2 Driven Knowledge Management[M] . West Sussex,Eland: John Wiley
关键词:本体;学前教育;领域本体;本体构建;本体语言
中图分类号:TP182文献标识码:A文章编号:1009-3044(2008)33-1452-02
Research on Building Ontology for Preschool Education
XU Liang,CHENG Lei-lei
(1.Nanjing Normal University, Nanjing 210097, China)
Abstract: Because of the shortcomings of the constructions of the internet, the recourses in the web are always lack of semantic information. As a result, it is very hard to search and reason. Ontology is a formal, explicit specialization of a shared conceptualization and provides semantic meaning throng relations between concepts. This paper discusses the concept of ontology, introduces the principle and method of construction for ontology.
Key words: ontology; preschool education; domain ontology; construction; ontology language
1 引言
本体技术作为语义Web的重要组成部分,其在知识组织和管理中的作用受到了广泛的关注。目前在本体的研究方法等方面取得了一定的进展,但是针对特定领域和特定学科的研究还不多见。本体的建模是整个语义Web研究的核心和关键,本文针对学前教育学科的领域知识,结合本体构建的一般性规律,探讨学前教育资源领域本体的建模。
2 本体建模研究现状
针对传统Web中存在的资源格式混乱、信息无序、数据缺乏语义信息的问题,利用本体知识和语义Web变无序信息为有序信息,帮助计算机理解Web信息就显得很有必要了。所谓本体建模指的是利用领域本体组织领域资源的基本思路,即是在资源集合的上层构建一个反映领域资源知识结构的领域本体概念模型,以此为基础对资源进行基于语义的标注,提供基于语义的资源浏览与检索。所以,怎样构建领域本体已经成为一个新的研究热点,在实践中也产生了一些面向不同应用需求的本体构建方法,如IDEF-5法、骨架法、企业建模法、Methontology法、循环获取法、七步法等。在学科领域本体的构建过程中,初始核心本体的获得是关键。目前大致有两条获得路径:一是通过知识获取技术从现有的学科数据库中提取专业术语,挖掘、发现学科的基本概念,再由领域专家确认并建立概念关联;二是在传统的知识组织体系如分类法和主题词表中转换改造为初始核心本体。目前国内外关注的焦点是主题词表与本体的改造、融合及转换。
在领域本体的建设中,本体进化至关重要。本体进化也称本体学习或本体演化,即是在初始核心领域本体基础上,依据一定的理论、 技术和标准,对本体概念结构、概念及关系不断进行丰富、完善、改进、更新和评估的过程和方法。新概念的获取及概念关系的关联是本体进化的重点和难点。近些年来,这方面的研究开始引起学界的关注,对于概念的获取,国外目前提出了三类方法,即基于语言学的方法、基于统计的方法、结合语言学和统计学技术的混合方法。国内这方面的研究主要有利用Bootstrapping的机器学习技术、采用非线性函数与“成对比较法 ” 相结合的方法、将统计方法与规则方法相结合的专业领域术语抽取算法等。
对于概念间关系的获取,国外研究也很多,常用的方法有:基于模板的方法、基于概念聚类的方法、基于关联规则的方法、基于词典的方法及使用若干种方法的混和方法等。
3 学前教育资源实验本体构建
转换改造传统主题词表中的分类概念和主题概念,是获得学科领域本体初始核心概念的科学方法。因为领域本体的基础是概念系统,主题词表也是分类概念和主题概念及关系的集合,其基本功能和本体具有一致性。主题词表广泛使用于各个学科领域,因此从中选择某一领域,将其改造转换为初始核心本体的基础,是一种比较科学、简便且实用的学科领域本体构建方法。应此,笔者通过设计挖掘程序发现得到主题词表,然后建立概念关联的方法来构建学前教育资源实验本体。
3.1 实验本体构建步骤
当前对构造本体的方法和方法的性能评估还没有一个统一的标准,不过在构造特定领域本体的过程中领域专家的参与是很有必要的。由领域专家和语言学家共同确定该领域的基本词汇和词汇间的关系。由于领域本体往往都是很庞大的,如果单纯采用手工构建,工作量是很大的。如果我们能够搜集足够多的领域训练文本,从这些文本中抽取出该领域的基本词汇,再利用某种技术得到这些词汇之间的关系。就可以实现领域的自动构建。这样做在理论上是行得通的,缺点就是大量训练文本的获取存在困难,往往导致最终的结果不太准确。这里采用的方法是采用对训练文本进行处理得到主题词表,然后人工介入建立概念与实例之间的关联的方法。
具体的过程与步骤如下:
1) 获得训练文本。
针对学前教育网络资源,笔者从各大学前教育资源网站(中国学前教育网、北京学前教育网、上海学前教育网等)获得200份语料数据,采用平均分布的方式涵盖各个栏目的内容包括幼教新闻、幼教资源、家庭教育、活动教案等多个栏目。
2) 对训练文体进行预处理。
对得到的训练文本首先进行分词,然后对照停用词表和虚词表剔除停用词,计算出各个词的权重,根据权重对其进行正规化。这样得到一个根据训练文本得出的权重最高的主题词表。
3) 建立概念关联。
我们知道本体的关键内容就是描述概念和概念之间的相互关联,概念的定义一般采用框架结构,包括概念的名称与其他概念之间关系的集合,以及用自然语言对该概念的描述。有四种基本的关系:is-a(继承关系)、part-of(部分与整体的关系)、instance-of(概念实例与概念的关系)和attribute-of(属性关系)等等。在得到主题词表之后,我们根据领域知识对其首先区分出概念、实例和属性,然后根据这四种基本关系建立概念、实例和属性之间的关联。
图1
本文对本体层次关系图建模如下:
OH = (ConceptLayer,InstanceLayer,Assoc);即本体层次关系图是一个三元组,由概念层、实例层和两者之间的关联构成。其中概念层 CL 是一个偏序集(c,p),其中c是一个有限的概念集, p是 c 的一个偏序。而实例层InstanceLayer = {Instancei|i = 1,n}:即实例层是由具体的学前教育资源所构成的;Instance = {(Inamei,Iurli)|i = 1,n}:表示一个实例是由实例的名字和实例的 url 地址所组成的二元组。
3.2 实验分析
在建立了概念关联之后,笔者使用standford大学的本体建模工具protégé设计出学前教育资源试验本体(preschool_onto),本体的结构如图1所示。
为了便于以后的语义推理与检索,笔者将该实验本体保存为owl格式,该实验本体的代码片段如下:
<owl:Ontology rdf:about="urn:eduonto/"/>
<owl:Class rdf:about="urn:eduonto/kindergarten">
<rdfs:comment rdf:datatype="http://www.w3.org/2001/XMLSchema#string"
>幼儿园</rdfs:comment>
<rdfs:subClassOf>
<owl:Restriction>
<owl:onProperty>
<owl:ObjectProperty rdf:about="http://swrc.ontoware.org/ontology#hasParts"/>
</owl:onProperty>
<owl:allValuesFrom>
<owl:Class rdf:about="urn:eduonto/Institute"/>
</owl:allValuesFrom>
</owl:Restriction>
</rdfs:subClassOf>
<rdfs:subClassOf>
<owl:Class rdf:about="urn:eduonto/Organization"/>
</rdfs:subClassOf>
</owl:Class>
<owl:Class rdf:about="urn:eduonto/WebSite">
<rdfs:subClassOf>
<owl:Class rdf:about="urn:eduonto/Organization"/>
</rdfs:subClassOf>
<rdfs:comment rdf:datatype="http://www.w3.org/2001/XMLSchema#string"
>教学网站</rdfs:comment>
</owl:Class>
通过学前教育资源实验本体的构建和对本体构建方式的研究,构建出的学前教育实验本体在进行推理和检索时对于关键词的推理和解释能力有了较大的提高,有助于在信息检索和推送时改善查全率和查准率。
4 结论
本文在对国内外领域本体构建方法及本体进化的研究现状进行概述的基础上,立足学前教育领域的学科现状,以机器学习的方式获得概念词集,并通过领域知识明确概念及其与本体概念之间的关联,并在此基础上构建了实验本体,该本体是初步的、不完善的,都需要进一步深入研究和试验。
参考文献:
[1] 黄伟. 本体构建与语义集成研究[D]. 硕士学位论文,东南大学计算应用专业,2005.
[2] 陈刚,陆汝钤,金芝.基于领域知识重用的虚拟领域本体构造[J]. 软件学报,2003,14(3):350-355.
[3] John Davies,Dieter Fensel,Frank Van Harmelen. Towards the Semtic Web2 Ontology2 Driven Knowledge Management[M] . West Sussex,Eland: John Wiley