论文部分内容阅读
XML(可扩展标记语言,Extensible Markup Language)作为W3C数据描述和交换的标准格式语言,已经得到了广泛的应用,不论是Semantic Web还是WebServices都采用XML作为其数据表示和数据交换的标准格式。XML已经发展成为信息应用等领域数据表示与数据交换的主要媒介。但是,XML本身只能表达数据的语法,而不能表示形式化的语义。隐含在XML文档中的语义信息只对人们来说有较大意义,而计算机却难以理解。要实现计算机的对文档信息的理解和自动处理,文档数据中必须包含明确的语义级信息。本文针对这个问题,提出了基于领域本体实现对XML的语义信息抽取的方法,包含了二大部分内容,领域本体的构建和基于领域本体的XML语义信息抽取。在领域本体构建部分,对比研究了领域本体构建工具和构建方法,并对构建方法做了新的探讨,提出了一种本体构建的原型迭代法,把软件工程学中的基于软件生命周期模型的迭代模型,引入到本体构建过程中来。本文结合在工作室参与研究的项目,构建了水运规费征稽的领域本体。为了减轻本体构建的工作量,本文借助了斯坦福大学开发的Protégé本体构建工具和汉堡大学开发的Race推理机作为本体验证工具。在基于领域本体的XML语义信息抽取部分,本文设计了基于领域本体的XML语义信息抽取模型,包含本体导入解析模块,导入XML数据源模块,语义标注XML元数据模块和XML语义信息抽取模块,并对这四个模块的实现做了详细分析。在深入研究了XML树模型和RDF图模型的基础上,本文提出了XML到RDF的抽取算法,并通过XTR Service原型系统给出了验证结果。使用到的主要技术包括,Jdom API、Jena API以及普通树的深度优先遍历。本文的研究工作,结合实际科研项目,以领域本体为指导,初步解决了XML的语义信息抽取问题,特别是XML结构所隐含的语义。