论文部分内容阅读
网络数据的激增,宣告“信息爆炸”时代的到来,互联网成为了人们获取知识的主要信息源。然而使用传统信息组织方法进行数据组织的互联网由于缺乏语义理解机制,使得人们往往需要花费大量的时间和精力浏览网页、搜索信息、筛选数据,数据检索、访问、整合和维护都变得非常困难。在这种情况下,互联网创始人Berners-Lee提出了语义网(SemanticWeb)的概念,用以解决当前互联网缺乏语义理解这一问题。而本体(Ontology)作为一种有效的知识组织方式,被纳入语义网体系,作为一种资源表示的手段用于描述语义网中的信息,从而实现在网络资源上附加计算机可以理解的内容,达到资源的语义理解。本体是解决语义层次上网络信息共享和交换的基础。
另外一方面,中国人文社会科学引文索引(简称CSSCI)自20世纪90年代末诞生以来,以其规范、权威的检索和分析服务得到了使用该索引研究学者的一致认同。然而CSSCI信息检索服务的简单化和直线型的信息组织方式使得用户在检索时很难获得查询结果;此外,更加精确、要求发现隐含知识的引文分析也对传统的基于数理统计的CSSCI引文分析服务提出了更高的要求,研究人员试图通过其他手段如数据挖掘技术等来对CSSCI学术资源进行更为深入的剖析,以获得一些意想不到的结果。然而数据挖掘作为一种信息处理手段无法从根本上改变引文分析的模式,只能从某个角度出发获得比较片面的分析结果。在这种情况下,基于具有知识语义描述能力的本体机制来提升CSSCI学术资源服务的方案被提了出来,试图借助本体对知识的有效组织从本质上改变CSSCI原有的数据组织结构,以新的语义检索服务和引文分析模式代替原有的服务模式,来解决用户需要更完善的信息服务和CSSCI提供学术资源服务相对落后之间的矛盾.
本文通过对本体基础理论的研究,认为本体能够有效的描述领域内知识,实现领域知识的语义理解,可以作为CSSCI学术资源的知识组织方式,改变其原有数据结构,以面向对象形式来描述人文社会科学领域的学术资源,从而为CSSCI学术资源语义检索和挖掘潜在知识等问题提供有效的解决途径。本文主要研究工作和成果概括如下:
1.在总结分析国内外现有的本体构建方法和关键技术基础上,结合CSSCI信息服务现状和CSSCI本体的特点,提出适合CSSCI本体构建的指导思想和6个步骤的循环建模过程,分别是建立概念层次结构、定义概念属性、概念实例化、本体存储和展示、本体评价以及本体应用等,并认为上述过程并不是直线“瀑布式”,而是一个存在“增量迭代”的循环过程。
2.建立CSSCI本体概念模型。从CSSCI原始关系数据库的元数据结构中抽取主要概念,并通过核心扩展的方法获取辅助概念和下位概念,建立起比较完整的CSSCI概念层次结构;通过对元数据结构的进一步考察,为CSSCI概念层次结构中的每一个概念定义属性,并具体描述了概念属性的计算方法,为CSSCI本体的实例化奠定了基础。在CSSCI本体概念模型建立完毕之后,可以采用Protégé工具对其进行具体描述、图形化展示以及逻辑检测。
3.CSSCI大规模数据的语义标引。在概念模型的指导下,充分利用CSSCI原始数据结构,对大规模来源数据进行语义标引。主要采用3种方式为实例获取属性值,即基于原始数据库中字段间的相互依赖直接获取属性值、基于数理统计辅以TF-IDF算法获取实例的统计属性、基于形式概念分析(FCA)和机率模式算法建立同类实例之间的关联并计算关联度。在完成各类实例属性值设置后,CSSCI实例以面向对象的形式被集成在一个巨大的学术资源网络中。本文还对该学术资源网络的存储方式以及评价方法做了探讨。
4.建立基于CSSCI本体的知识检索服务平台。在提出基于本体信息检索系统一般模型的基础上,结合CSSCI知识检索服务功能和特点的分析,建立了适合CSSCI用户的知识服务平台的系统架构,并开发了一个原型系统用以验证,试图提供CSSCI学术资源的语义检索功能。主要包括基于实例间关联对用户查询式进行可视化的语义扩展;对检索结果进行语义推荐,实现用户的查询扩展;在本体导航下实现用户在学术资源间的任意转移,通过系统提示明确检索意图;基于规则推理进行实例间显性和隐性关系的查询。
5.提供基于CSSCI本体的引文分析服务。本体最大的优势在于将领域知识以面向对象的结构进行组织,与对象相关的所有知识被存放在对象属性值中。因此,通过对对象属性知识的深入分析和相互比较,可以对对象产生深刻的认识。在这种思想的指导下,基于CSSCI本体实例库进行了多对象、多方位、多维度的引文分析,可以得到了一些可参考的结论。主要工作包括:基于CSSCI概念(这里指来源种刊、作者、机构、地区、论著、项目基金等)的复合统计属性,对比分析不同实例的有关属性值,获得实例的学术影响力状况;基于本体描述的学科之间、期刊之间、学者之间以及部门之间的关联度,辅以一定的数据挖掘工具,结合多维尺度分析和聚类分析,挖掘实例间关联状况,借此做出有参考价值的结论;基于主题的关联主题描述,对2000-2006年间的热门主题进行聚类,对该期间的学科热点进行探测;分年度探测学科热点,绘制学科热点发展趋势图,对学科发展做出合理的预测。