Web环境中不同格式数据源的领域本体提取方法的研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:dianzi511
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新一代语义Web的目标是通过领域本体提供一个共享的和共同的领域理论实现智能的人机交互,计算机之间的互操作和计算机系统中的知识重用。语义Web的发展和标准本体描述语言(OWL)的出现,迫切需要以此为基础在各种领域中构建大量本体,从而推动本体的实际应用。然而目前大部分本体库的建立工作都是手工进行的,领域专家从指定的数据或文本中发现本体相当困难,本体正确性的有效性验证也必须通过专家的领域知识来完成,缺乏有效的管理和评价工具,这必然导致所建立的本体具有不一致性。使用自动的或者至少是半自动化的方法建立本体必然成为解决以上问题的主要方法。 本体的创建涉及领域专家建模、概念提取,概念分类等主要问题。本文对半自动化地从Web的现有资源中提取领域本体的几个关键问题,主要包括多个不同格式的数据源的一致性处理方法、概念的语义相似性分析方法、基于语义的概念分类技术、从概念分类中提取领域本体的方法、领域本体的表示方法及基于领域本体的语义查询方法进行了深入的研究,其主要内容如下: 1.针对目前大部分本体建立以手工为主,过于依赖领域专家帮助等问题,本文充分挖掘Web现有资源中蕴涵的知识,提出了从多个不同格式的数据源出发,半自动提取领域本体的模型。该模型阐明了利用Web上现有资源,限制领域专家干预,以多个语义相关的数据源为领域,半自动地提取领域本体的总体思想。 2.针对目前表示和处理多个不同格式数据源的概念模型不支持数据模式内、模式间术语关系的提取和导出等问题,本文提出了面向多个不同格式数据源的统一概念模型.语义距离相似模型(SDSModel),该模型精确表示各数据源的内涵信息及所表现概念相关的实例信息中隐含的知识,且具有可计算性。本文提出了不同数据源到SDSModel的形式化转换规则,支持各种二元术语关系的直接提取和间接推导。 3.目前比较著名的语义相似性分析方法主要是语法驱动的或基于模式匹配的,通过语言上和结构上的匹配及聚类完成相似性分析,且面向的数据源比较单一化,需要大量的专家参与。本文提出了基于SDSModel的语义相似性分析方法,该方法是语义驱动的,能处理多个不同的数据源格式,通过语言、结构、背景等多个比较特征,从词汇级相似性到基本语义相似性,最后提炼概念间的精确语义相似性。实验证明,本文提出的分析方法具有很高的稳定性、正确性和完全性。 4.针对目前大规模、高维数据集聚类分析效果不理想的现状,结合本文需要从Web的海量数据中进行概念分类的实际情况,本文量化了概念在模式中的重要 程度,以模式中最重要和最具代表性的概念为聚类对象,有效降低了模式聚类过程中的数据量,并取得了很好的分析结果。受DBSCAN和K-MEANS算法的启发,本文提出了基于大数据集的多次高效聚类算法(MECLHDS),但与之不同的是MECIMDS不需要预先设置邻域半径、密度和聚类数,可将高维的数据处理转换到二维空间,并适合于任意形状的聚类,聚类效率和聚类质量均超过已有的经典聚类算法。 5.本文提出了从相关领域的概念聚类中提取领域本体的算法和本体修正算法,被提取的本体既表现了领域内概念间纵向继承的知识体系,也表现了领域内概念间横向联系的知识体系,同时,明确、清晰的语义有利于知识的共享。 6.为了使基于领域本体的语义查询具有更强的推理能力,本文使用描述逻辑ALCQI形式化领域本体,借助ALCQI的逻辑推理能力以及ontology概念间的语义能力,提高查询的查全率和查准率。本文采用Monoid Comprehension Calculus作为基于领域本体查询转换的目标语言,充分利用其在嵌套和非嵌套collection型数据查询中的自然方法,定义了从用户查询到含半幺群概括演算的转换规则。为了减少转换过程中产生的临时变量和嵌套的层次,本文定义了语义的优化处理及查询重写规则。 本文的研究,深化了Web中领域知识的建模、形式化表示和应用方面的理论和方法,对于领域本体的共享、重用和互操作具有重大的理论价值和实际应用价值。
其他文献
本文在研究导弹发射决策支持系统功能的基础上,建立了协同式的导弹发射决策支持系统的总体结构框架,设计了系统的关键功能模块及其实现算法模型。 首先,本文针对BP算法的缺陷
众所周知,正是图形用户界面技术使得计算机应用的普及成为现实,正如网络技术让计算无处不在一样,随着计算机及网络技术的不断发展及其向人类工作和生活的不断渗透,对用户界面的要
航天五院是我国主要进行卫星和飞船研制的航天军工科研院所。在企业信息化和以互联网为代表的高科技迅猛发展的今天,传统的住房公积金管理模式已经不能适应企业的高速发展,建立
近年来,一些传统的信息安全技术及相关产品已取得了突破性的发展,但是却普遍缺乏网络防御的主动性和时效性。与此同时,在与入侵者周旋的过程中,信息安全的防范手段往往滞后于层出
随着计算机技术和网络通信技术的高速发展,分布式并发系统已成为当前计算机技术的主流方向。相对于传统的串行计算机系统,分布式并发系统非常复杂,其开发过程不仅难度大,效率低,周
曲线曲面造型是计算机辅助几何设计(CAGD)与计算机图形学(CG)的重要内容。由Coons、Bezier等大师于六十年代奠定理论基础。经过几十多年发展,现在它已经形成了以Bezier方法、B
随着计算机和网络技术的飞速发展和普及,信息系统安全成为当前研究的热点课题。而数据库作为信息的载体,其安全自然成为信息安全研究领域一个非常重要的方面。数据库的安全保护
由于目前主流厂商提供的服务集成的J2EE平台昂贵的成本,以及EJB机制的侵入性,强制的编程规范,很多企业级应用软件的开发需要更轻量级的容器,更少的代码侵入性,更高的组件重用性,更
为了解决利用增值税专用发票偷税骗税的问题,我国开始研制推广增值税防伪税控系统。防伪税控系统集计算机、微电子、光电技术以及数据加密等技术为一体。取消了手工开票的方法
在当今社会“互联网+”的新常态下,网络和传统产业的融合日益紧密,计算技术的发展也在快速改变人们曾习以为常的生活和生产形态。健康和医疗领域就是体现这一改变的典型应用。