基于语义的异构信息内容集成技术研究

来源 :中国科学院软件研究所 | 被引量 : 0次 | 上传用户:lisong459
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术、数据库技术以及其他信息内容存储访问技术的发展,用户需要访问和可以访问的信息范围不断扩大,信息内容也不断增加,同时这些信息内容可能存在于通过网络连接的分布的计算机系统中,它们的存储地点、表示形式以及访问方式各不相同。因此,用户对于集成各种分布和异构信息来源中信息内容的要求与日俱增。   分布信息内容集成是指将分布异构的信息内容集成起来,其以统一的表示形式展现给访问用户,用户能以统一的访问接口和信息获取方式来访问这些不同来源、不同表示形式的信息内容。基于语义的分布信息内容集成是指采用统一语义模型来表示分布信息来源中信息内容的集成方式。   对分布信息内容集成的研究很多,特别是基于语义的分布信息内容集成领域,对这一领域的研究取得了一定的成果,但是这些研究中存在着下述不足:缺乏一种具有普遍适用性的语义集成多种类型信息内容的方法,其中信息来源包括结构化、半结构化以及非结构化的信息内容类型;缺少根据集成中的映射对应关系,将对所集成信息内容的全局查询划分转换为局域查询的方法;在保证集成信息内容满足完整性约束条件的方法中,缺乏针对所集成信息内容不完全性的解决方法的研究;缺少基于语义的信息内容集成与基于XML模式的信息内容集成相结合及相关技术的研究;缺乏对非结构化的网页或文本文档进行语义集成以及相关语义搜索技术的研究;对于包含信息内容描述而彼此之间又存在着关联关系的分布RDF(S)描述,缺乏对其基于语义集成方法的研究。本文从这些问题出发,研究相应的解决方法和关键技术,并完成了语义信息内容集成的部分实现。   论文研究的基于语义的异构信息内容集成涉及到集成关系数据、XML文档、RDF(S)描述以及网页和文本文档多种类型的信息来源。论文给出了基于语义的异构信息内容集成的总体框架,其采用三层结构形式,底层是各种分布信息来源,集成层以表示全局领域模型的本体来集成这些信息内容,并将信息门户作为信息内容发布层中用户访问和获取信息内容集成结果的接口。同时,所提出的本体到局域信息模式的映射模型能统一的表示基于语义的信息映射和信息集成方式。基于本体的结构化(关系数据)和半结构化(XML)信息内容集成中的关键问题是如何实现对全局本体的概念实例查询到局域信息数据查询的查询划分与转换。论文提出了一种本体概念实例查询的操作表示,并基于这一查询操作表示给出了将全局查询划分为局域查询的方法,同时还给出了将局域查询转换为对应局域信息源的本地查询的方法,各个局域查询结果经过集成和转换后以统一的形式返回给用户。使用本方法来查询所集成的信息内容来源,可以获取用户所需要的正确查询结果。   语义信息内容集成中需要集成的分布信息数据之间可能不满足全局定义的完整性约束条件。通过对用户查询进行重写,可以采用重写后的查询来获得满足完整性约束的查询结果。一致性查询重写通过附加给查询限定性条件,使查询去除某些导致不满足完整性约束的查询结果;论文提出的完全性查询重写能通过附加补充性条件导致获取某些附加查询结果,从而解决集成中信息内容不完全性引起的不满足完整性约束冲突。复合查询重写则是根据对完整性约束集合的划分综合运用一致性查询重写和完全性查询重写的方法。使用特定的完整性约束集合划分能使复合查询重写后的查询获取的数据结果满足用户的偏好性需求。   在基于语义的分布XML集成中,局域XML信息来源可以为集成多个局域XML文档所形成的虚拟XML信息来源。由于局域XML信息来源是动态变化的,所集成的XML模式需要随着局域XML模式的加入或者删除而变化。论文所提出的模型用来描述集成XML模式和局域XML模式之间良构性的匹配映射关系,并提出了一种实现局域XML模式加入和删除所导致的集成XML模式修改的方法,此方法能在XML模式集成过程中保持匹配映射的可包容良构性,从而能保证局域XML到集成XML数据的正确转换。   为了集成分布的RDF(S)描述,论文提出了描述分布异构RDF(S)的分布RDF(S)模型,这一模型能描述分布RDF(S)描述之间的联系。同时基于这一模型给出了实现分布RDF(S)查询的方法,此查询方法既能实现实例层次的查询,也能实现概念层次的查询。同时,在分布RDF(S)模型和分布RDF(S)查询方法的基础上,可以实现基于全局本体的分布RDF(S)描述集成。   在基于语义的网页与文本文档集成中,为了获取更准确的网页和文本信息搜索结果,论文提出了基于语义索引的语义搜索技术。语义索引是对本体中概念与关系和所集成文档的相关程度进行索引,根据此索引,可以查找和语义概念相关的文档。用户的语义搜索请求可以划分为对语义索引的搜索部分和对关键词索引的搜索部分,这两部分的搜索结果通过一定规则进行处理,所获得的语义搜索结果可以在保证一定查准率的基础上获得满意的查全率。   OncePortal是我们实现的一种集成信息与应用的信息门户,它可以作为基于语义的异构信息内容集成中的用户访问和信息发布方式。这样用户能以统一的OncePortal访问方式来访问被语义集成的信息内容,在其中输入对所集成信息内容的语义查询或搜索请求,语义查询或搜索的结果也以OncePortal输出网页的形式返回给用户。  
其他文献
基于多语言字处理软件的开发实践,论文对多语言计算的概念、范畴、模型和系统框架结构进行研究,重点分析了复杂文字处理与多语言文本布局两个关键部分,取得了五个方面的主要成果
学位
当前,随着黑客技术的不断发展和计算机病毒的日益泛滥,信息的安全性受到的威胁也愈来愈大,作为网络核心组成部分的终端,由于其分散性、不被重视、安全手段缺乏等特点,已成为信息安
学位
带宽是因特网中的一类关键性的网络资源,认识带宽行为规律是网络测量的一项重要任务。带宽测量在网络管理、网络规划与设计以及提高网络应用性能等方面,都具有重要意义。为此
本文以SECIMOS和Earth两个安全操作系统的实际开发过程为基础,从安全模型的动态化改进、安全内核体系结构对动态策略的支持、动态策略语言的分析管理三个角度出发,对安全操作系
随着互联网技术的普及和国内各个大学网络的不断发展,很多大学都已经拥有了自己的校园网。校园网已经成为各个大学信息化建设的一个重要组成部分。这就使得校园网络的安全问题
学位
非合作遥感影像定位是指确定元数据丢失影像所代表的地面区域,作为实现图像融合、影像校正、地理信息标注等必不可少的关键步骤之一,于军事、经济和科研都具有重要价值。但遥感
P2P是一种对等网络,它不同于C/S模式,P2P网络中的各个客户主机具有同等地位,每个主机既是客户端享受服务,同时又作为服务器向网络中的其他主机提供服务。避免了C/S模式中由于服务
本文在对基于工作流的层次间控制模型分析的基础上,引入了信任机制。对于虚拟企业这样动态性比较高的虚拟实体来说,可以有效地帮助访问控制系统进行可靠性判断,提高系统安全性。
本论文在参考国内外关于实验室管理系统最新研究成果的基础上,充分调研和分析了现代实验室管理模式,根据现代实验室管理,开放的特点,并针对我校计算机实验教学中心实验室的特点及
移动通信和互联网的迅速发展,使得两者的结合——移动互连技术成为研究的热点。越来越多的用户希望能够随时随地的接入Internet。为了解决计算机无线上网以及计算机在移动的过