论文部分内容阅读
随着网络技术和软件技术的飞速发展,特别是Internet/Intranet的发展,大多数信息资源已不光只是结构性资料,而是出现了很多丰富多样的非结构化形式提供给使用者。各种信息资源迅速增多,不同格式、不同时期、不同应用等异构环境下的复杂数据源并存的局面逐步形成。对各种信息构造一致的表示机制,并在此基础上建立能有效处理和检索各种信息的统一平台,以满足日益增长的信息实际应用的需要无疑是一个颇有研究价值的课题。 传统的基于关键词匹配的检索会产生明显的效率问题,检索系统的查全率和查准率都不尽如人意。 Semantic Web和Ontology为信息检索提供了一种新方法,它能解决传统检索的许多不足。现在基于Ontology的信息检索是当前Ontology研究和应用的焦点。 论文首先介绍了Ontology的概念以及实现语义检索的原理与优势,其次介绍了基于Ontology技术进行信息检索时需要解决的如下两个问题:如何自动构建与检索系统相关的XML文件,以及如何在检索系统中运用Ontology技术来提高检索质量。 对上述的第一个问题,本文首先给出了系统的XML文件的信息表示,然后提出了自动抽取文档信息的算法,此算法是以最大匹配分词法为基础的,以企业或组织所涉及的相关领域的Ontology为分词词典,采用逐字搜索,最长匹配,先删除非用字,再识别关键词的方法来识别本体词,最后计算本体词出现的频度(次数/文本长度),将结果记录在XML文件中供查询。 而对于后一个问题即基于Ontology的检索算法,论文先提出了计算查询关键词和文档相似度的Similarity(word,file)函数,其中word为用户的查询关键词组(包含word1,word2,…wordm),file为需要查询的文件。Similarity返回0到1之间的值,值的大小体现查询词和文件的相似度。然后论文根据这个函数给出了本文的检索算法。 本文通过Ontology技术在信息检索领域的应用,在信息表示的层次上解决了传统的基于关键词检索中存在的查全率和查准率不高的问题。论文详细介绍了系统实现的全过程。最后对论文工作进行了总结和展望,指出了系统中存在的不足和待改进的地方,并论述了基于Ontology技术在信息检索领域的广阔应用前景。