基于引文分析的数据仓库的构建

来源 :南京大学 | 被引量 : 0次 | 上传用户:huangxz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
引文分析工作是中文社会科学引文索引(CSSCI)的重要组成部分,对期刊、学者、机构等指标做出评价,引文分析系统在其中起着至关重要的作用,关系到这些评价指标的科学性和准确性。近年来由于CSSCI引文数据的不断增长,数据量越来越大,单一的、传统的关系数据库已经不能够满足引文分析工作的需求,引文分析人员的工作十分繁琐,并且效率和准确度都不高。面对这样的问题,本文将目前服务于企业决策系统的数据仓库技术和理论引入到引文分析系统中来,提出了建设单独的体系化数据环境,实现操作型环境与分析型环境的分离,专门用于引文分析的需要,为引文分析工作提供了便利的手段。   本文详细地分析了现有的CSSCI引文索引数据库的结构和特点,认真研究了引文分析工作的过程和目标,深刻了解到数据录入系统和数据分析系统在结构、需求和作用等方面的区别,所以必须要将它们分离开来,建立各自独立的数据环境。数据仓库技术的出发点就在于认识到了这两个信息处理系统的不同之处,这就为基于引文分析的数据仓库的构建提供了理论上的可行性。   本文重点介绍了基于引文分析的数据仓库的构建思路和步骤,首先数据录入系统将标引后的期刊录入到数据库中形成源数据;然后通过数据转换程序对源数据进行规范和纠错,对数据的质量进行控制;再对转换后较为规范的数据进行面向主题的数据组织,装入到数据仓库中,这里的主题指的就是一些评价指标如期刊、学者、机构等;在数据仓库中通过多张相互联系的表来模拟出多维数据模型,提供多维数据分析模式,并且提供联机分析处理技术(OLAP)的接口;引文分析工作就利用数据仓库提供的OUAP工具对多维数据进行操作,不需要代码编写,操作界面友好、简单。   最后本文以CSSCI2006年的最新数据为例,构建了基于引文分析的数据仓库,并且利用OLAP工具来完成了作者发文和机构发文的统计工作,进行了向下钻取操作,展示了作者发文和机构发文的细节信息,充分体现了将数据仓库理论和技术引入到引文分析中来的好处,为引文分析人员的工作带来了很多便利。
其他文献
在当今信息爆炸的时代,如何从海量学术文献中高效率地挖掘其中的知识,尤其是以传统文献阅读方式所不容易察觉到的隐含知识,对科学家斟酌和遴选有意义和有价值的科学问题具有重要
在明确界定知识资本和新创企业绩效含义和维度的基础上,阐述知识资本与新创企业绩效实现的作用关系,分析企业创业过程中三项关键活动,即机会利用、资源获取和创业导向选择对
随着计算机技术和网络技术的发展,互联网已经逐步渗透到社会生活的各方面,并对其产生了重大影响。因而,越来越多的研究者开始从不同角度研究互联网,以揭示其本质和各方面的规
一个国家的未来取决于人民的健康,生物医学的重要性越来越被公众意识到,支持这类科研是政府义不容辞的责任,而国立医学科研机构是承担这一职责的主力和基石。我国没有一个既进行
通过Citespace可视化软件对下载的1998-2010年的文献数据进行可视化分析,展示有关信息检索模型研究的机构分布和期刊分布,剖析支撑当前信息检索模型发展的关键学术文献分布,
将技术创新、知识创新、人才成长作为一个并行、互嵌的过程,以技术创新为载体,分析技术创新不同阶段的知识创新以及人才成长协同发展的机理。在此基础上,给出企业技术创新过
课程是教育的载体,把课程仅仅定位于知识观,过于技术工具化,只会泯灭生命的灵性.课程应该位于生命的关照下,体悟生命,体验生活,让生命得以在教育中、生活中诗意的栖居,走向更
摘 要:随着我国经济的不断发展,人民对于房屋或是建筑的质量也越来越重视。建筑行业作为我国各类建筑的主要施工单位,其自身的发展也逐渐受到了人民的关注。在建筑工程中,工程造价是建筑的重要组成部分,工程造价的主要作用就是对施工过程中的成本进行预算控制。本文主要针对建筑工程造价预算的控制方式展开讨论,首先从工程施工超预算的原因入手进行分析,结合建筑工程造价预算应该控制的要点展开研究,最后总结出建筑工程造价
知识创新是高技术虚拟产业集群形成综合竞争能力和保持竞争优势的重要因素。通过分析知识创新的类型和层次,建立高技术虚拟产业集群知识创新绩效评价指标体系,结合灰色关联度
风湿骨病患者都知道“冬病夏治”的概念。很多人都选择在夏季采取药物的方法治疗风湿骨病,郁鑫膏自然成为众多患者的首选。出汗洗澡不脱落郁鑫膏完美升级夏季炎热,出汗、洗澡