基于本体的CSSCI学术资源网络模型构建及其应用

来源 :南京大学 | 被引量 : 0次 | 上传用户:jicaomin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络数据的激增,宣告“信息爆炸”时代的到来,互联网成为了人们获取知识的主要信息源。然而使用传统信息组织方法进行数据组织的互联网由于缺乏语义理解机制,使得人们往往需要花费大量的时间和精力浏览网页、搜索信息、筛选数据,数据检索、访问、整合和维护都变得非常困难。在这种情况下,互联网创始人Berners-Lee提出了语义网(SemanticWeb)的概念,用以解决当前互联网缺乏语义理解这一问题。而本体(Ontology)作为一种有效的知识组织方式,被纳入语义网体系,作为一种资源表示的手段用于描述语义网中的信息,从而实现在网络资源上附加计算机可以理解的内容,达到资源的语义理解。本体是解决语义层次上网络信息共享和交换的基础。   另外一方面,中国人文社会科学引文索引(简称CSSCI)自20世纪90年代末诞生以来,以其规范、权威的检索和分析服务得到了使用该索引研究学者的一致认同。然而CSSCI信息检索服务的简单化和直线型的信息组织方式使得用户在检索时很难获得查询结果;此外,更加精确、要求发现隐含知识的引文分析也对传统的基于数理统计的CSSCI引文分析服务提出了更高的要求,研究人员试图通过其他手段如数据挖掘技术等来对CSSCI学术资源进行更为深入的剖析,以获得一些意想不到的结果。然而数据挖掘作为一种信息处理手段无法从根本上改变引文分析的模式,只能从某个角度出发获得比较片面的分析结果。在这种情况下,基于具有知识语义描述能力的本体机制来提升CSSCI学术资源服务的方案被提了出来,试图借助本体对知识的有效组织从本质上改变CSSCI原有的数据组织结构,以新的语义检索服务和引文分析模式代替原有的服务模式,来解决用户需要更完善的信息服务和CSSCI提供学术资源服务相对落后之间的矛盾.   本文通过对本体基础理论的研究,认为本体能够有效的描述领域内知识,实现领域知识的语义理解,可以作为CSSCI学术资源的知识组织方式,改变其原有数据结构,以面向对象形式来描述人文社会科学领域的学术资源,从而为CSSCI学术资源语义检索和挖掘潜在知识等问题提供有效的解决途径。本文主要研究工作和成果概括如下:   1.在总结分析国内外现有的本体构建方法和关键技术基础上,结合CSSCI信息服务现状和CSSCI本体的特点,提出适合CSSCI本体构建的指导思想和6个步骤的循环建模过程,分别是建立概念层次结构、定义概念属性、概念实例化、本体存储和展示、本体评价以及本体应用等,并认为上述过程并不是直线“瀑布式”,而是一个存在“增量迭代”的循环过程。   2.建立CSSCI本体概念模型。从CSSCI原始关系数据库的元数据结构中抽取主要概念,并通过核心扩展的方法获取辅助概念和下位概念,建立起比较完整的CSSCI概念层次结构;通过对元数据结构的进一步考察,为CSSCI概念层次结构中的每一个概念定义属性,并具体描述了概念属性的计算方法,为CSSCI本体的实例化奠定了基础。在CSSCI本体概念模型建立完毕之后,可以采用Protégé工具对其进行具体描述、图形化展示以及逻辑检测。   3.CSSCI大规模数据的语义标引。在概念模型的指导下,充分利用CSSCI原始数据结构,对大规模来源数据进行语义标引。主要采用3种方式为实例获取属性值,即基于原始数据库中字段间的相互依赖直接获取属性值、基于数理统计辅以TF-IDF算法获取实例的统计属性、基于形式概念分析(FCA)和机率模式算法建立同类实例之间的关联并计算关联度。在完成各类实例属性值设置后,CSSCI实例以面向对象的形式被集成在一个巨大的学术资源网络中。本文还对该学术资源网络的存储方式以及评价方法做了探讨。   4.建立基于CSSCI本体的知识检索服务平台。在提出基于本体信息检索系统一般模型的基础上,结合CSSCI知识检索服务功能和特点的分析,建立了适合CSSCI用户的知识服务平台的系统架构,并开发了一个原型系统用以验证,试图提供CSSCI学术资源的语义检索功能。主要包括基于实例间关联对用户查询式进行可视化的语义扩展;对检索结果进行语义推荐,实现用户的查询扩展;在本体导航下实现用户在学术资源间的任意转移,通过系统提示明确检索意图;基于规则推理进行实例间显性和隐性关系的查询。   5.提供基于CSSCI本体的引文分析服务。本体最大的优势在于将领域知识以面向对象的结构进行组织,与对象相关的所有知识被存放在对象属性值中。因此,通过对对象属性知识的深入分析和相互比较,可以对对象产生深刻的认识。在这种思想的指导下,基于CSSCI本体实例库进行了多对象、多方位、多维度的引文分析,可以得到了一些可参考的结论。主要工作包括:基于CSSCI概念(这里指来源种刊、作者、机构、地区、论著、项目基金等)的复合统计属性,对比分析不同实例的有关属性值,获得实例的学术影响力状况;基于本体描述的学科之间、期刊之间、学者之间以及部门之间的关联度,辅以一定的数据挖掘工具,结合多维尺度分析和聚类分析,挖掘实例间关联状况,借此做出有参考价值的结论;基于主题的关联主题描述,对2000-2006年间的热门主题进行聚类,对该期间的学科热点进行探测;分年度探测学科热点,绘制学科热点发展趋势图,对学科发展做出合理的预测。
其他文献
围绕普通学校转型与融合学校建设,形成一系列标准来推进融合教育的深入实施,成为了加拿大新世纪之后教育改革的重要方向之一.其中,阿尔伯塔省的融合学校标准建设颇具特色.迄
大学生正处于身心发展的关键时期,要从终身发展的角度为学生提供有利于身心健康的体育教学项目.瑜伽作为一种集柔韧锻炼与力量训练为一体的新型运动项目,可以使修习瑜伽者通
政策法规对保障科学数据有序共享具有重要意义,本文探讨如何构建系统、完善的政策法规体系,以利于我国科学数据共享活动的开展。   本文首先从数据资源建设、技术平台结构、
专业助手是自闭症谱系障碍儿童接受教育的重要支持人员,对其学业能力的发展以及社会交往技能的提升具有重要意义.本研究梳理了近二十年国外培训专业助手对自闭症谱系障碍儿童
首先,在基于语料库统计和人工内省的语言知识基础上制定抓取底表,使用抓取工具Wget从网络上抓取含有英汉对照语言对的网页.其次,通过程序从抓取网页中提取英汉对照语言对,对
基于政府信息公开与公共图书馆的必然联系,提出“中间向两头”的信息构建策略,对公共图书馆的信息资源本体和载体的构建提出新思路,试图利用层群码分类法将“中间向两头”的
近年来,随着网络和通信技术的发展,信息环境的建立,用户获取信息的手段发生了很大的变化,获取信息的途径也逐渐增多:用电子邮件获取图书馆或其它的信息资源系统的文献目录;通过电子
随着当今社会的不断发展,对人才的质量要求也越来越高.团队精神已成为人们学习和工作生活中的重要组成部分.一个人的能力再强,也是有限的,而团队的力量是无限的.中职院校培养
为了保证社区体育活动健康长久地发展,就必须注重培养社会体育指导员,提高社会体育指导员的综合素质,让他们不仅可以指导人们进行体育锻炼,还能够指导人们一些体育卫生、体育
企业信息管理制度是企业信息管理活动的重要组成部分。一直以来,当制度因素的重要性已经为被许多企业家以及政策制定者所认识的时候,企业信息管理研究却没有给予其以足够的重视