论文部分内容阅读
引文分析工作是中文社会科学引文索引(CSSCI)的重要组成部分,对期刊、学者、机构等指标做出评价,引文分析系统在其中起着至关重要的作用,关系到这些评价指标的科学性和准确性。近年来由于CSSCI引文数据的不断增长,数据量越来越大,单一的、传统的关系数据库已经不能够满足引文分析工作的需求,引文分析人员的工作十分繁琐,并且效率和准确度都不高。面对这样的问题,本文将目前服务于企业决策系统的数据仓库技术和理论引入到引文分析系统中来,提出了建设单独的体系化数据环境,实现操作型环境与分析型环境的分离,专门用于引文分析的需要,为引文分析工作提供了便利的手段。
本文详细地分析了现有的CSSCI引文索引数据库的结构和特点,认真研究了引文分析工作的过程和目标,深刻了解到数据录入系统和数据分析系统在结构、需求和作用等方面的区别,所以必须要将它们分离开来,建立各自独立的数据环境。数据仓库技术的出发点就在于认识到了这两个信息处理系统的不同之处,这就为基于引文分析的数据仓库的构建提供了理论上的可行性。
本文重点介绍了基于引文分析的数据仓库的构建思路和步骤,首先数据录入系统将标引后的期刊录入到数据库中形成源数据;然后通过数据转换程序对源数据进行规范和纠错,对数据的质量进行控制;再对转换后较为规范的数据进行面向主题的数据组织,装入到数据仓库中,这里的主题指的就是一些评价指标如期刊、学者、机构等;在数据仓库中通过多张相互联系的表来模拟出多维数据模型,提供多维数据分析模式,并且提供联机分析处理技术(OLAP)的接口;引文分析工作就利用数据仓库提供的OUAP工具对多维数据进行操作,不需要代码编写,操作界面友好、简单。
最后本文以CSSCI2006年的最新数据为例,构建了基于引文分析的数据仓库,并且利用OLAP工具来完成了作者发文和机构发文的统计工作,进行了向下钻取操作,展示了作者发文和机构发文的细节信息,充分体现了将数据仓库理论和技术引入到引文分析中来的好处,为引文分析人员的工作带来了很多便利。