论文部分内容阅读
〔摘要〕情报检索是情报研究工作的前提和核心。本文基于科学知识图谱理论,对近数十年来情报检索的研究做概貌性描述,运用主题词词频分析、聚类分析、共词分析、合著分析等文献计量方法,统计了情报检索领域1956-2015年的103 733篇学术文献,对文献的时间分布、文献主题分布、关键词词频、国家分布、机构分布、作者分布、合著关系等数据进行分析,并通过可视化知识图谱展示了作者合著关系以及主题词和关键词的共现关系。结果表明,情报检索的相关研究正处于快速发展阶段,研究主题明确、地域差距显著,已经形成了一批具有核心影响力的专家学者。本文通过分析情报检索领域的发展脉络,对于情报学领域的学者进一步寻找研究热点、挖掘新的研究问题具有一定的参考意义。
〔关键词〕科技情报;情报检索;文献计量;知识图谱;前沿
DOI:10.3969/j.issn.1008-0821.2016.08.030
〔中图分类号〕G2549〔文献标识码〕A〔文章编号〕1008-0821(2016)08-0160-08
〔Abstract〕Information retrieval is the premise and the core of intelligence research.Based on the theory of mapping knowledge domain,the article reviewed the research progress of information retrieval in recent decades.Applying bibliometrics method such as key words frequency analysis,cluster analysis,co-word analysis,co-author analysis,the article counted 103733 pieces of academic literature in the field of information retrieval from 1956 to 2015.The article took the literature data about time distribution,subject distribution,keywords frequency,regional distribution,research institution distribution,authors distribution and the co-authorship network for analysis.Meanwhile the articles shows the co-authored network and the co-occurrence relations of subject headings and keywords through visual knowledge map.The results showed that Information retrieval research is in rapidly developing stage now.It had the clear researching topics and the significant difference among the regions in the research.The main influential learning leader has formed through the analysis of the development of information retrieval,looking for the research directions and the new hot spots would profit from this article.
〔Key words〕science and technology information;information retrieval;bibliometrics;mapping knowledge domain
情报工作的核心是情报检索。当前,针对情报检索所开展的研究中,不少成果以综述、评论、回顾和总结类的论文形式发表。这类文章对情报检索的研究成果进行了有效梳理,系统整理了情报检索的方法论,总结了情报检索研究的现状及成果。随着研究的进展,情报检索相关的文献数量已经非常庞大,综述类文献一般只能进行研究成果列举等定性分析;对整体领域的研究动态把握不足,所选取的样本往往无法覆盖研究领域的各个方面,数据不够全面[1],而针对多学科研究视角和研究方法创新方面,综述性文献也有其不足[2]。目前,文献调研已经由定性研究向定量研究转变,利用计算机数据挖掘技术,可实现高效精确的分析[3]。因此,我们有必要将情报检索的研究进行一个多层次、多学科视野下的数据梳理和分析,从而形成一个连贯、全面的研究体系。
本文对情报检索的研究以大量的文献数据为基础,基于文献计量思想,在技术统计数据的基础上形成可视化知识图谱。以此揭示情报检索相关领域主题词的分布以及作者之间的合著情况等信息,同时对该领域的概念延伸和研究热点进行分析。本文的研究以定量分析为主,定性分析为辅,通过对客观数据的定量分析,有效验证了以往学者采用定性分析法得出的分析结果,希望本文基于信息可视化方法的研究结论,能够有助于科技情报学界进一步把握情报检索领域的研究脉络和思路。
1数据来源与方法
11数据来源
本研究数据来源于SCI(Sciences Citation Index),SCI数据库由美国科学信息研究所于上世纪中叶创办,是著名的三大检索系统之一,其检索结果为学术界进行统计与评价时所公认。鉴于SCI在学术界具有相当的权威,可以作为对科技情报检索研究趋势的典型例证。因此本文选取SCI数据库作为数据来源。 本文使用Web of Science集成检索界面进行检索操作,检索字段定为“主题”字段,检索策略为“主题=(information retrieval)OR(patent retrieval)OR(bibliographic retrieval)OR(information search)OR(information technology)OR(informatics)OR(literature metrology)”,检索时间范围设定为1900-2015年,共计检索出121 376篇相关文献。
12数据清洗
数据清洗是文献计量工作的基础,且根据经验,数据清洗的工作量占据文献计量工作量的大部分。目前数据清洗可以采用人工清洗和计算机自动清洗两种方式,人工清洗效率低,准确度高,但无法应对大量文献集,计算机自动数据清洗效率高,但准确度不理想。一般所采用的数据清洗模式为计算机辅助人工清洗。
本研究中,数据清洗的主要任务是去除重复记录、无关记录、补充遗漏记录。由于所选用数据库为SCI,其对收录文献的重复记录控制较好,检索记录中基本不存在重复数据。故采用 “回溯方式”进行数据清洗,即在制定检索策略进行初次检索后,对检索结果进行分析,通过对“脏数据”出现的原因及形式的分析,回溯至检索阶段,制定数据清洗的方法及策略,去除与研究主题无关数据,循环实施,直至数据达到应用要求为止,最终得到103 733条符合要求的记录。
13文献计量方法
在情报检索领域中,将文献计量方法、统计学方法、可视化方法相结合,可对文献进行更深层次的统计分析,形成知识图谱[4],知识图谱可以直观图像的形式,对学科发展从不同角度进行剖析,其中需要运用系统化的数据采集和挖掘方法,对知识元素进行计量研究。
目前,已有一些软件可进行文献数据的可视化研究工作,主要针对规模较大的文献题录集合。例如,本文将采用Bibexcel进行计量分析和引文分析。通过对各类软件的试用,Bibexcel较适合于对文献进行批量处理,针对本次统计研究,需要先将与情报检索相关的基础数据以题录的形式进行下载,然后进行数据预处理,Bibexcel可将基础文献数据以矩阵形式呈现,数据矩阵最终可导入UCINET软件进行进一步分析,通过网络分析理论,形成合著网络数据和关键词共现网络数据,最后的可视化图谱生成可由Netdraw软件进行。所生成的网络图谱可以反映作者之间合著关系和情报检索的发展趋势。
2数据分析
21文献数量
在某一研究领域中,公开发表的文献数量是学科热度的标志之一,研究热点一般会产生较多文献,另外,文献发表数量的特定拐点,可能预示专业领域中的分支确立。在图1中,绘制了情报检索领域中1900-2015年的文献公开发表数量。1900-1956年间关于情报检索的研究文献为0,情报检索领域首篇文献产生于1956年,到2014年达到高峰,共有9 878篇相关文献发表;2015年有所回落,仍有超过9 000篇文献公开发表。从图1数据中看出,1990年之前论文数量较少但随时间起伏不大,表明1990年之前情报检索方法研究较平稳,既无热点事件也无衰退趋势;1990年以后情报检索方法的研究突然升温,每年均有显著增长,该时间点同互联网技术的兴起大致同步,因此有理由认为情报检索方法的研究与互联网革命有显著相关。而2009年达到阶段性高峰后,研究人员对情报检索的研究有所回落,但仍保持较高水平,可能受到了当前计算机科学和互联网技术的瓶颈限制。
22主题分布
在SCI数据库中,对于学科主题有较为明确的划分,主要依据是文献主题及关键词,在针对学科的科学分类基础上,形成了一个由粗到细的完备体系框架。从SCI所收录的整体文献库来看,有关情报检索主题的论文在超过100个主题类别中出现,若选取含10 000篇文献的主题为统计对象,结果如图2所示,依照数量排序,有5个主题包含较多的情报检索相关文献。根据图2所示数据解读,情报检索方面文献主要分布在计算机信息系统、图书情报学、人工智能、计算机科学理论以及电子工程等主题,其中计算机信息系统和人工智能占据了绝对的主导地位。
在计算机信息系统领域,学者们通过撰写情报检索理论的相关文献来解决情报检索的背景、情报检索基础理论、情报检索数学模型等一系列重要的、具体的研究问题。例如,BELKIN,NJ于1982发表了概述情报检索背景和理论研究的文章[5]。Lew,Michael S于2006年对基于内容的多媒体情报检索进行了探索研究[6]。MARON,ME于1960年就情报检索与相关性、概率型索引的关系进行了研究[7]。
在人工智能领域,学者们对图像检索、基于大众分类法的检索理论和情报检索向量空间模型等一系列的研究课图11900-2015年国内外文献产出量题进行了深入探讨。Salembier,P于2000年就采用二叉树表示图像处理、图像分割,情报检索进程的方法理论进行了研究[8]。Hotho,Andreas于2006年从大众分类法角度,对情报检索和分级排名进行了研究[9]。Castells,Pablo于2007年研究了基于本体的检索向量空间模型的适应性问题[10]。
在图书情报学领域,学者们主要在情报检索领域中研究情报数据之间的关系、认知理论以及行为学对情报检索方法论的影响。Ingwersen,P于1996年从认知角度研究情报检索的交互问题,分析了情报检索中的认知要素[11]。ELLIS,D于1989年从行为学方法论入手介绍了情报检索系统设计[12]。VANRIJSBERGEN,CJ于1977年主要对情报检索中共现数据的应用理论进行了研究分析[13]。
在计算机科学理论领域,学者们重点探索了比较前沿的多媒体信息检索、信息过滤和情报检索模型建立。Lew,Michael S于2013年研究了基于内容的多媒体信息检索[14]。BELKIN,NJ于2013年研究了情报检索中的信息过滤和垃圾信息去除[15]。2013年SALTON,G就情报检索的扩展布尔模型进行了研究[16]。
〔关键词〕科技情报;情报检索;文献计量;知识图谱;前沿
DOI:10.3969/j.issn.1008-0821.2016.08.030
〔中图分类号〕G2549〔文献标识码〕A〔文章编号〕1008-0821(2016)08-0160-08
〔Abstract〕Information retrieval is the premise and the core of intelligence research.Based on the theory of mapping knowledge domain,the article reviewed the research progress of information retrieval in recent decades.Applying bibliometrics method such as key words frequency analysis,cluster analysis,co-word analysis,co-author analysis,the article counted 103733 pieces of academic literature in the field of information retrieval from 1956 to 2015.The article took the literature data about time distribution,subject distribution,keywords frequency,regional distribution,research institution distribution,authors distribution and the co-authorship network for analysis.Meanwhile the articles shows the co-authored network and the co-occurrence relations of subject headings and keywords through visual knowledge map.The results showed that Information retrieval research is in rapidly developing stage now.It had the clear researching topics and the significant difference among the regions in the research.The main influential learning leader has formed through the analysis of the development of information retrieval,looking for the research directions and the new hot spots would profit from this article.
〔Key words〕science and technology information;information retrieval;bibliometrics;mapping knowledge domain
情报工作的核心是情报检索。当前,针对情报检索所开展的研究中,不少成果以综述、评论、回顾和总结类的论文形式发表。这类文章对情报检索的研究成果进行了有效梳理,系统整理了情报检索的方法论,总结了情报检索研究的现状及成果。随着研究的进展,情报检索相关的文献数量已经非常庞大,综述类文献一般只能进行研究成果列举等定性分析;对整体领域的研究动态把握不足,所选取的样本往往无法覆盖研究领域的各个方面,数据不够全面[1],而针对多学科研究视角和研究方法创新方面,综述性文献也有其不足[2]。目前,文献调研已经由定性研究向定量研究转变,利用计算机数据挖掘技术,可实现高效精确的分析[3]。因此,我们有必要将情报检索的研究进行一个多层次、多学科视野下的数据梳理和分析,从而形成一个连贯、全面的研究体系。
本文对情报检索的研究以大量的文献数据为基础,基于文献计量思想,在技术统计数据的基础上形成可视化知识图谱。以此揭示情报检索相关领域主题词的分布以及作者之间的合著情况等信息,同时对该领域的概念延伸和研究热点进行分析。本文的研究以定量分析为主,定性分析为辅,通过对客观数据的定量分析,有效验证了以往学者采用定性分析法得出的分析结果,希望本文基于信息可视化方法的研究结论,能够有助于科技情报学界进一步把握情报检索领域的研究脉络和思路。
1数据来源与方法
11数据来源
本研究数据来源于SCI(Sciences Citation Index),SCI数据库由美国科学信息研究所于上世纪中叶创办,是著名的三大检索系统之一,其检索结果为学术界进行统计与评价时所公认。鉴于SCI在学术界具有相当的权威,可以作为对科技情报检索研究趋势的典型例证。因此本文选取SCI数据库作为数据来源。 本文使用Web of Science集成检索界面进行检索操作,检索字段定为“主题”字段,检索策略为“主题=(information retrieval)OR(patent retrieval)OR(bibliographic retrieval)OR(information search)OR(information technology)OR(informatics)OR(literature metrology)”,检索时间范围设定为1900-2015年,共计检索出121 376篇相关文献。
12数据清洗
数据清洗是文献计量工作的基础,且根据经验,数据清洗的工作量占据文献计量工作量的大部分。目前数据清洗可以采用人工清洗和计算机自动清洗两种方式,人工清洗效率低,准确度高,但无法应对大量文献集,计算机自动数据清洗效率高,但准确度不理想。一般所采用的数据清洗模式为计算机辅助人工清洗。
本研究中,数据清洗的主要任务是去除重复记录、无关记录、补充遗漏记录。由于所选用数据库为SCI,其对收录文献的重复记录控制较好,检索记录中基本不存在重复数据。故采用 “回溯方式”进行数据清洗,即在制定检索策略进行初次检索后,对检索结果进行分析,通过对“脏数据”出现的原因及形式的分析,回溯至检索阶段,制定数据清洗的方法及策略,去除与研究主题无关数据,循环实施,直至数据达到应用要求为止,最终得到103 733条符合要求的记录。
13文献计量方法
在情报检索领域中,将文献计量方法、统计学方法、可视化方法相结合,可对文献进行更深层次的统计分析,形成知识图谱[4],知识图谱可以直观图像的形式,对学科发展从不同角度进行剖析,其中需要运用系统化的数据采集和挖掘方法,对知识元素进行计量研究。
目前,已有一些软件可进行文献数据的可视化研究工作,主要针对规模较大的文献题录集合。例如,本文将采用Bibexcel进行计量分析和引文分析。通过对各类软件的试用,Bibexcel较适合于对文献进行批量处理,针对本次统计研究,需要先将与情报检索相关的基础数据以题录的形式进行下载,然后进行数据预处理,Bibexcel可将基础文献数据以矩阵形式呈现,数据矩阵最终可导入UCINET软件进行进一步分析,通过网络分析理论,形成合著网络数据和关键词共现网络数据,最后的可视化图谱生成可由Netdraw软件进行。所生成的网络图谱可以反映作者之间合著关系和情报检索的发展趋势。
2数据分析
21文献数量
在某一研究领域中,公开发表的文献数量是学科热度的标志之一,研究热点一般会产生较多文献,另外,文献发表数量的特定拐点,可能预示专业领域中的分支确立。在图1中,绘制了情报检索领域中1900-2015年的文献公开发表数量。1900-1956年间关于情报检索的研究文献为0,情报检索领域首篇文献产生于1956年,到2014年达到高峰,共有9 878篇相关文献发表;2015年有所回落,仍有超过9 000篇文献公开发表。从图1数据中看出,1990年之前论文数量较少但随时间起伏不大,表明1990年之前情报检索方法研究较平稳,既无热点事件也无衰退趋势;1990年以后情报检索方法的研究突然升温,每年均有显著增长,该时间点同互联网技术的兴起大致同步,因此有理由认为情报检索方法的研究与互联网革命有显著相关。而2009年达到阶段性高峰后,研究人员对情报检索的研究有所回落,但仍保持较高水平,可能受到了当前计算机科学和互联网技术的瓶颈限制。
22主题分布
在SCI数据库中,对于学科主题有较为明确的划分,主要依据是文献主题及关键词,在针对学科的科学分类基础上,形成了一个由粗到细的完备体系框架。从SCI所收录的整体文献库来看,有关情报检索主题的论文在超过100个主题类别中出现,若选取含10 000篇文献的主题为统计对象,结果如图2所示,依照数量排序,有5个主题包含较多的情报检索相关文献。根据图2所示数据解读,情报检索方面文献主要分布在计算机信息系统、图书情报学、人工智能、计算机科学理论以及电子工程等主题,其中计算机信息系统和人工智能占据了绝对的主导地位。
在计算机信息系统领域,学者们通过撰写情报检索理论的相关文献来解决情报检索的背景、情报检索基础理论、情报检索数学模型等一系列重要的、具体的研究问题。例如,BELKIN,NJ于1982发表了概述情报检索背景和理论研究的文章[5]。Lew,Michael S于2006年对基于内容的多媒体情报检索进行了探索研究[6]。MARON,ME于1960年就情报检索与相关性、概率型索引的关系进行了研究[7]。
在人工智能领域,学者们对图像检索、基于大众分类法的检索理论和情报检索向量空间模型等一系列的研究课图11900-2015年国内外文献产出量题进行了深入探讨。Salembier,P于2000年就采用二叉树表示图像处理、图像分割,情报检索进程的方法理论进行了研究[8]。Hotho,Andreas于2006年从大众分类法角度,对情报检索和分级排名进行了研究[9]。Castells,Pablo于2007年研究了基于本体的检索向量空间模型的适应性问题[10]。
在图书情报学领域,学者们主要在情报检索领域中研究情报数据之间的关系、认知理论以及行为学对情报检索方法论的影响。Ingwersen,P于1996年从认知角度研究情报检索的交互问题,分析了情报检索中的认知要素[11]。ELLIS,D于1989年从行为学方法论入手介绍了情报检索系统设计[12]。VANRIJSBERGEN,CJ于1977年主要对情报检索中共现数据的应用理论进行了研究分析[13]。
在计算机科学理论领域,学者们重点探索了比较前沿的多媒体信息检索、信息过滤和情报检索模型建立。Lew,Michael S于2013年研究了基于内容的多媒体信息检索[14]。BELKIN,NJ于2013年研究了情报检索中的信息过滤和垃圾信息去除[15]。2013年SALTON,G就情报检索的扩展布尔模型进行了研究[16]。