论文部分内容阅读
随着网络的普及,技术的不断发展,网络文献业已成为文献资源的主要表现形式。近几年,随着中国知网,中国科技论文在线等网络知识交互平台的不断发展,网络上沉淀下来的文献资源逐渐增多,且具有更新快、几何增长等特点。从社会发展进步角度来看,信息知识是非常重要的资源,其中信息知识的共享、推广及复用是核心问题。针对这一现象,特展开研究。本文选取信息和知识的典型代表——文献,以本体的理论体系来讨论信息知识的推广、复用及优化等问题。讨论了网络文献信息抽取,文献领域本体构建、权威文献发现等一系列关系到知识共享、推广及复用的核心问题。 首先,本文在详细比较分析Web信息抽取理论、算法的基础之上设计了本文的网络文献信息抽取算法并实现,基于正则表达式设计抽取规则,且达到了理想的信息抽取效果。网络文献的信息抽取是本文主要研究内容的前置问题,关系到文献领域本体的实例,间接影响到基于领域本体的权威文献发现算法的实现,具有十分重要的研究价值。 其次,本文详细讨论分析了文献领域本体构建的理论技术问题,结合文献领域知识特点,详细分析了建模语言,本体设计框架,构建原则,建模方法,建模工具。理论方法的选择直接影响到本体模型的构建,是建模成功与否的关键所在,具有十分重要的地位。 再次,在讨论分析了本体构建的理论技术理论问题基础之上,实现了文献领域本体的构建。具体涉及到信息收集及重点概念的确定,确定概念层次结构、概念的属性及属性约束,以及本体实例化等问题,最终在protégé得到实现。其中涉及到概念层次的确定,本文提出了依据学科分类理论对文献概念进行分类及确定概念层次结构的方法,以及依据文献分类学有关理论,对发表刊物进行分类及概念层次结构的确定。文献领域本体模型的构建与实现则是实现信息知识的共享、推广、复用的关键,这也是本文研究价值所在。 最终,在文献领域本体实例的基础之上,依据Web结构挖掘中HITS算法思想,设计了权威文献发现算法,并提出了4类权威文献评价指标,分别为(1)参考文献权威贡献度;(2)作者信息权威贡献度;(3)出版刊物权威贡献度;(4)正文内容重合度,且对算法的实现及评价进行了讨论,指出了该算法中存在的不足,改进的思路及后续研究的方向。权威文献的发现则是本文的一个主要创新点。