基于Ontology的数据语义检索系统的研究与设计

来源 :贵州大学 | 被引量 : 8次 | 上传用户:hx147852
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术和软件技术的飞速发展,特别是Internet/Intranet的发展,大多数信息资源已不光只是结构性资料,而是出现了很多丰富多样的非结构化形式提供给使用者。各种信息资源迅速增多,不同格式、不同时期、不同应用等异构环境下的复杂数据源并存的局面逐步形成。对各种信息构造一致的表示机制,并在此基础上建立能有效处理和检索各种信息的统一平台,以满足日益增长的信息实际应用的需要无疑是一个颇有研究价值的课题。 传统的基于关键词匹配的检索会产生明显的效率问题,检索系统的查全率和查准率都不尽如人意。 Semantic Web和Ontology为信息检索提供了一种新方法,它能解决传统检索的许多不足。现在基于Ontology的信息检索是当前Ontology研究和应用的焦点。 论文首先介绍了Ontology的概念以及实现语义检索的原理与优势,其次介绍了基于Ontology技术进行信息检索时需要解决的如下两个问题:如何自动构建与检索系统相关的XML文件,以及如何在检索系统中运用Ontology技术来提高检索质量。 对上述的第一个问题,本文首先给出了系统的XML文件的信息表示,然后提出了自动抽取文档信息的算法,此算法是以最大匹配分词法为基础的,以企业或组织所涉及的相关领域的Ontology为分词词典,采用逐字搜索,最长匹配,先删除非用字,再识别关键词的方法来识别本体词,最后计算本体词出现的频度(次数/文本长度),将结果记录在XML文件中供查询。 而对于后一个问题即基于Ontology的检索算法,论文先提出了计算查询关键词和文档相似度的Similarity(word,file)函数,其中word为用户的查询关键词组(包含word1,word2,…wordm),file为需要查询的文件。Similarity返回0到1之间的值,值的大小体现查询词和文件的相似度。然后论文根据这个函数给出了本文的检索算法。 本文通过Ontology技术在信息检索领域的应用,在信息表示的层次上解决了传统的基于关键词检索中存在的查全率和查准率不高的问题。论文详细介绍了系统实现的全过程。最后对论文工作进行了总结和展望,指出了系统中存在的不足和待改进的地方,并论述了基于Ontology技术在信息检索领域的广阔应用前景。
其他文献
Internet用户快速增加和用户所传输数据量的加大,导致越来越严重的拥塞问题。拥塞控制的目的就是采取一定的控制机制,既能保证达到一定的吞吐量,提高网络的利用率,又能够避免
大型软件系统特别是基于WEB的软件系统的普及,使得对软件开发过程的管理研究显得更为重要。而软件规模、软件开发劳动成本、软件风险估计是软件开发过程管理中的重要内容。为
网格技术是近年来从广域网络计算,特别是广域网的高性能计算发展而来的一种技术。网格被认为是信息技术发展的下一波浪潮,它使用户能够协同地使用地理上分散的各种资源,达到
网络技术的不断发展,使得Web迅速发展成为一个浩瀚复杂的数据源,已成为人们获取信息的重要途径。整个Web可以划分为Surface Web和Deep Web(又称为Hidden Web或Invisible Web)
工作流是近年来计算机集成制造领域发展最为迅速的技术之一。目前已有多种产品应用于实际中,例如Metero、WIDE等。但由于大多数产品在产品建模过程中缺乏正确性验证或仅进行
工作流程自动化(workflow automation)使企业有效地降低了成本、提高了产能,以此为技术基础的工作流管理系统WfMS也成为了支持人们协同工作、实现业务流程自动化的基础平台。
多传感器数据融合是信息的综合与处理过程,即为了完成所需的决策和估计任务,对在不同的时间序列上获得的各种传感器信息按一定的准则加以综合分析。它包括对各种传感器给出的有
精炼炉是炼钢生产中非常重要的炼钢设备。它不仅能够协调生产节奏,而且还负责调整钢水成分和控制钢水温度等重要任务。本文以我国广西柳州钢厂精炼炉为背景,在研究分析了精炼
计算机网络特别是Internet的快速发展为社会带来了无限价值,它几乎已经覆盖了各个领域。但作为互联网络的主要协议IPv4(Internet Protocal Version 4)由于自身的限制,已经逐渐
本文主要阐述了基于目前成熟的VRS网络设计分米级差分GPS接收机。该系统设计过程主要从以下几个方面阐述:首先从实际出发,讨论本课题研究的意义和国内外的研究现状,简单的介绍了