基于领域本体的XML语义信息抽取的研究与实现

来源 :武汉理工大学 | 被引量 : 18次 | 上传用户:kftgb1221
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
XML(可扩展标记语言,Extensible Markup Language)作为W3C数据描述和交换的标准格式语言,已经得到了广泛的应用,不论是Semantic Web还是WebServices都采用XML作为其数据表示和数据交换的标准格式。XML已经发展成为信息应用等领域数据表示与数据交换的主要媒介。但是,XML本身只能表达数据的语法,而不能表示形式化的语义。隐含在XML文档中的语义信息只对人们来说有较大意义,而计算机却难以理解。要实现计算机的对文档信息的理解和自动处理,文档数据中必须包含明确的语义级信息。本文针对这个问题,提出了基于领域本体实现对XML的语义信息抽取的方法,包含了二大部分内容,领域本体的构建和基于领域本体的XML语义信息抽取。在领域本体构建部分,对比研究了领域本体构建工具和构建方法,并对构建方法做了新的探讨,提出了一种本体构建的原型迭代法,把软件工程学中的基于软件生命周期模型的迭代模型,引入到本体构建过程中来。本文结合在工作室参与研究的项目,构建了水运规费征稽的领域本体。为了减轻本体构建的工作量,本文借助了斯坦福大学开发的Protégé本体构建工具和汉堡大学开发的Race推理机作为本体验证工具。在基于领域本体的XML语义信息抽取部分,本文设计了基于领域本体的XML语义信息抽取模型,包含本体导入解析模块,导入XML数据源模块,语义标注XML元数据模块和XML语义信息抽取模块,并对这四个模块的实现做了详细分析。在深入研究了XML树模型和RDF图模型的基础上,本文提出了XML到RDF的抽取算法,并通过XTR Service原型系统给出了验证结果。使用到的主要技术包括,Jdom API、Jena API以及普通树的深度优先遍历。本文的研究工作,结合实际科研项目,以领域本体为指导,初步解决了XML的语义信息抽取问题,特别是XML结构所隐含的语义。
其他文献
随着计算机科学技术的发展和计算机视觉理论的广泛应用,利用计算机图像处理技术对目标进行定位和实时跟踪的研究越来越热门。在智能化交通系统、智能监控系统、军事目标检测
随着Internet的快速发展,尤其是Web服务技术、电子商务等的广泛使用,XML作为一种自描述的半结构化数据模式已成为Web数据表示和交换的新标准,越来越多的信息处理系统采用XML
近年来,随着城市化进程的加快,城市公共交通问题也越来越严重。为了缓解城市交通压力,就需要大力发展智能交通,提高公共交通系统的运行效率和服务质量。而公交调度问题作为智
交通运输业是国民经济和社会发展的基础性产业,它的跨越式发展使得信息化成为必然选择。为此各级政府和相关部门建立了各种各样的交通信息管理系统,但由此也产生了一系列严重问
数据挖掘是从大量的数据中通过算法挖掘出未知潜在的知识或有价值的规律的过程。Apriori算法是数据挖掘关联规则中的经典算法,该算法通过对数据的关联性进行分析和挖掘,挖掘
移动自组网络(Mobile Ad Hoc Network, MANET)是一种具有高度动态拓扑结构,不依赖于任何固定基础设施支持的多跳、无线、自治网络,它具有灵活机动、组网快速、抗毁性强等优点
图像在生成、存储和传输的过程中,经常由于硬件设备、天气状况、光线强弱、噪声干扰等一系列的因素导致图像质量下降。为了复原这些退化图像,迄今已有一些成熟的图像复原的方
在电子政务中,电子公文交换占据着非常重要的地位,提高和改进电子公文处理的效率至关重要。由于没有一致的格式标准,不同单位产生的电子公文格式就可能不同,这必将导致共享程
本文以开源地学信息浏览器World Wind为主要研究对象,结合目前主流的地学信息浏览器、P2P技术深入分析了地学信息浏览器的系统架构和关键技术,并在此基础上对G/S这一新型的模
特征选择已经成为数据挖掘、机器学习、模式识别等领域的研究热点。特征选择用更稳定的特征集合以适当的精度表示原始特征集合。特征选择的研究主要集中在两个方面,一是搜索