基于科学知识图谱的情报检索前沿研究

来源 :现代情报 | 被引量 : 0次 | 上传用户:kizanliu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  〔摘要〕情报检索是情报研究工作的前提和核心。本文基于科学知识图谱理论,对近数十年来情报检索的研究做概貌性描述,运用主题词词频分析、聚类分析、共词分析、合著分析等文献计量方法,统计了情报检索领域1956-2015年的103 733篇学术文献,对文献的时间分布、文献主题分布、关键词词频、国家分布、机构分布、作者分布、合著关系等数据进行分析,并通过可视化知识图谱展示了作者合著关系以及主题词和关键词的共现关系。结果表明,情报检索的相关研究正处于快速发展阶段,研究主题明确、地域差距显著,已经形成了一批具有核心影响力的专家学者。本文通过分析情报检索领域的发展脉络,对于情报学领域的学者进一步寻找研究热点、挖掘新的研究问题具有一定的参考意义。
  〔关键词〕科技情报;情报检索;文献计量;知识图谱;前沿
  DOI:10.3969/j.issn.1008-0821.2016.08.030
  〔中图分类号〕G2549〔文献标识码〕A〔文章编号〕1008-0821(2016)08-0160-08
  〔Abstract〕Information retrieval is the premise and the core of intelligence research.Based on the theory of mapping knowledge domain,the article reviewed the research progress of information retrieval in recent decades.Applying bibliometrics method such as key words frequency analysis,cluster analysis,co-word analysis,co-author analysis,the article counted 103733 pieces of academic literature in the field of information retrieval from 1956 to 2015.The article took the literature data about time distribution,subject distribution,keywords frequency,regional distribution,research institution distribution,authors distribution and the co-authorship network for analysis.Meanwhile the articles shows the co-authored network and the co-occurrence relations of subject headings and keywords through visual knowledge map.The results showed that Information retrieval research is in rapidly developing stage now.It had the clear researching topics and the significant difference among the regions in the research.The main influential learning leader has formed through the analysis of the development of information retrieval,looking for the research directions and the new hot spots would profit from this article.
  〔Key words〕science and technology information;information retrieval;bibliometrics;mapping knowledge domain
  情报工作的核心是情报检索。当前,针对情报检索所开展的研究中,不少成果以综述、评论、回顾和总结类的论文形式发表。这类文章对情报检索的研究成果进行了有效梳理,系统整理了情报检索的方法论,总结了情报检索研究的现状及成果。随着研究的进展,情报检索相关的文献数量已经非常庞大,综述类文献一般只能进行研究成果列举等定性分析;对整体领域的研究动态把握不足,所选取的样本往往无法覆盖研究领域的各个方面,数据不够全面[1],而针对多学科研究视角和研究方法创新方面,综述性文献也有其不足[2]。目前,文献调研已经由定性研究向定量研究转变,利用计算机数据挖掘技术,可实现高效精确的分析[3]。因此,我们有必要将情报检索的研究进行一个多层次、多学科视野下的数据梳理和分析,从而形成一个连贯、全面的研究体系。
  本文对情报检索的研究以大量的文献数据为基础,基于文献计量思想,在技术统计数据的基础上形成可视化知识图谱。以此揭示情报检索相关领域主题词的分布以及作者之间的合著情况等信息,同时对该领域的概念延伸和研究热点进行分析。本文的研究以定量分析为主,定性分析为辅,通过对客观数据的定量分析,有效验证了以往学者采用定性分析法得出的分析结果,希望本文基于信息可视化方法的研究结论,能够有助于科技情报学界进一步把握情报检索领域的研究脉络和思路。
  1数据来源与方法
  11数据来源
  本研究数据来源于SCI(Sciences Citation Index),SCI数据库由美国科学信息研究所于上世纪中叶创办,是著名的三大检索系统之一,其检索结果为学术界进行统计与评价时所公认。鉴于SCI在学术界具有相当的权威,可以作为对科技情报检索研究趋势的典型例证。因此本文选取SCI数据库作为数据来源。   本文使用Web of Science集成检索界面进行检索操作,检索字段定为“主题”字段,检索策略为“主题=(information retrieval)OR(patent retrieval)OR(bibliographic retrieval)OR(information search)OR(information technology)OR(informatics)OR(literature metrology)”,检索时间范围设定为1900-2015年,共计检索出121 376篇相关文献。
  12数据清洗
  数据清洗是文献计量工作的基础,且根据经验,数据清洗的工作量占据文献计量工作量的大部分。目前数据清洗可以采用人工清洗和计算机自动清洗两种方式,人工清洗效率低,准确度高,但无法应对大量文献集,计算机自动数据清洗效率高,但准确度不理想。一般所采用的数据清洗模式为计算机辅助人工清洗。
  本研究中,数据清洗的主要任务是去除重复记录、无关记录、补充遗漏记录。由于所选用数据库为SCI,其对收录文献的重复记录控制较好,检索记录中基本不存在重复数据。故采用 “回溯方式”进行数据清洗,即在制定检索策略进行初次检索后,对检索结果进行分析,通过对“脏数据”出现的原因及形式的分析,回溯至检索阶段,制定数据清洗的方法及策略,去除与研究主题无关数据,循环实施,直至数据达到应用要求为止,最终得到103 733条符合要求的记录。
  13文献计量方法
  在情报检索领域中,将文献计量方法、统计学方法、可视化方法相结合,可对文献进行更深层次的统计分析,形成知识图谱[4],知识图谱可以直观图像的形式,对学科发展从不同角度进行剖析,其中需要运用系统化的数据采集和挖掘方法,对知识元素进行计量研究。
  目前,已有一些软件可进行文献数据的可视化研究工作,主要针对规模较大的文献题录集合。例如,本文将采用Bibexcel进行计量分析和引文分析。通过对各类软件的试用,Bibexcel较适合于对文献进行批量处理,针对本次统计研究,需要先将与情报检索相关的基础数据以题录的形式进行下载,然后进行数据预处理,Bibexcel可将基础文献数据以矩阵形式呈现,数据矩阵最终可导入UCINET软件进行进一步分析,通过网络分析理论,形成合著网络数据和关键词共现网络数据,最后的可视化图谱生成可由Netdraw软件进行。所生成的网络图谱可以反映作者之间合著关系和情报检索的发展趋势。
  2数据分析
  21文献数量
  在某一研究领域中,公开发表的文献数量是学科热度的标志之一,研究热点一般会产生较多文献,另外,文献发表数量的特定拐点,可能预示专业领域中的分支确立。在图1中,绘制了情报检索领域中1900-2015年的文献公开发表数量。1900-1956年间关于情报检索的研究文献为0,情报检索领域首篇文献产生于1956年,到2014年达到高峰,共有9 878篇相关文献发表;2015年有所回落,仍有超过9 000篇文献公开发表。从图1数据中看出,1990年之前论文数量较少但随时间起伏不大,表明1990年之前情报检索方法研究较平稳,既无热点事件也无衰退趋势;1990年以后情报检索方法的研究突然升温,每年均有显著增长,该时间点同互联网技术的兴起大致同步,因此有理由认为情报检索方法的研究与互联网革命有显著相关。而2009年达到阶段性高峰后,研究人员对情报检索的研究有所回落,但仍保持较高水平,可能受到了当前计算机科学和互联网技术的瓶颈限制。
  22主题分布
  在SCI数据库中,对于学科主题有较为明确的划分,主要依据是文献主题及关键词,在针对学科的科学分类基础上,形成了一个由粗到细的完备体系框架。从SCI所收录的整体文献库来看,有关情报检索主题的论文在超过100个主题类别中出现,若选取含10 000篇文献的主题为统计对象,结果如图2所示,依照数量排序,有5个主题包含较多的情报检索相关文献。根据图2所示数据解读,情报检索方面文献主要分布在计算机信息系统、图书情报学、人工智能、计算机科学理论以及电子工程等主题,其中计算机信息系统和人工智能占据了绝对的主导地位。
  在计算机信息系统领域,学者们通过撰写情报检索理论的相关文献来解决情报检索的背景、情报检索基础理论、情报检索数学模型等一系列重要的、具体的研究问题。例如,BELKIN,NJ于1982发表了概述情报检索背景和理论研究的文章[5]。Lew,Michael S于2006年对基于内容的多媒体情报检索进行了探索研究[6]。MARON,ME于1960年就情报检索与相关性、概率型索引的关系进行了研究[7]。
  在人工智能领域,学者们对图像检索、基于大众分类法的检索理论和情报检索向量空间模型等一系列的研究课图11900-2015年国内外文献产出量题进行了深入探讨。Salembier,P于2000年就采用二叉树表示图像处理、图像分割,情报检索进程的方法理论进行了研究[8]。Hotho,Andreas于2006年从大众分类法角度,对情报检索和分级排名进行了研究[9]。Castells,Pablo于2007年研究了基于本体的检索向量空间模型的适应性问题[10]。
  在图书情报学领域,学者们主要在情报检索领域中研究情报数据之间的关系、认知理论以及行为学对情报检索方法论的影响。Ingwersen,P于1996年从认知角度研究情报检索的交互问题,分析了情报检索中的认知要素[11]。ELLIS,D于1989年从行为学方法论入手介绍了情报检索系统设计[12]。VANRIJSBERGEN,CJ于1977年主要对情报检索中共现数据的应用理论进行了研究分析[13]。
  在计算机科学理论领域,学者们重点探索了比较前沿的多媒体信息检索、信息过滤和情报检索模型建立。Lew,Michael S于2013年研究了基于内容的多媒体信息检索[14]。BELKIN,NJ于2013年研究了情报检索中的信息过滤和垃圾信息去除[15]。2013年SALTON,G就情报检索的扩展布尔模型进行了研究[16]。
其他文献
〔摘要〕综合运用概念图和思维导图的基本原理,利用Word绘图工具制作“概念——思维框图”,应用于图书馆学研究中的论文架构表达和辅助各类基金项目申报中的研究框架、研究思路表述。归纳总结6种“概念——思维框图”表现形式和绘制要点,以实例说明其适用范围。用Word绘图工具制作的“概念——思维框图”,既包含了概念图的“网状”知识关系关联性表达,又具有思维导图“树状”发散性思维的自然表达。在绘制方面,相比各
以教研为导向的艺术留学。  《留学》杂志发起的“3·15探营活动”围绕“留学事务所”十一大办事处业务内容展开,探访留学行业内的语培机构、留学中介、移民置业机构、出国金融服务机构、国际学校等广大留学生家庭关注的机构和企业。本次活动旨在推动留学行业信息透明化进程,敦促从业者坚守职业道德,搭建留学行业机构(企业)与消费者间诚信为本、真诚沟通的平台,帮助更多学子顺利实现留学梦想,让留学行业更加繁荣健康地发
很多国家在中国的春节期间不放假,所以大多数留学党只能选择“网络团圆”。不过,在国外过年同样有其乐趣,可以体验与传统中国不一样的跨年方式,感受异域的新年习俗。  2017年在2016年渐行渐远的足迹中悄然而至,每到这个辞旧迎新之际,各家各户张灯结彩,忙着张罗春节期间的事宜,贴春联、贴窗花,购买烟花爆竹,准备腌制好的腊肉、香肠,除夕夜边吐槽春晚边来一顿香喷喷的饺子宴,大年初一还可以欣赏舞龙舞狮表演..
摘 要 者共引分析是文献研究中所采用的重要和有效方法。本文针对推荐系统领域的研究,用基于作者共引分析的方法构建知识图谱。利用Web of Science数据库作为数据来源,提取1997-2014年的推荐系统研究文章,生成作者共引矩阵后转化为Pearson相关系数矩阵,再进行因子分析、聚类分析与多维尺度分析,构建推荐系统研究领域的知识图谱。分析表明,推荐系统研究目前处于快速发展时期,相关学者人数与研
摘 要:[目的/意义]针对h指数受载文量影响大、区分度低等问题,本文提出了hq2指数,其原理是用h指数除以开平方后的载文量。[方法/过程]基于中国知网(CNKI)引文数据库,以46种综合社科期刊为例进行实证研究,首先分析hq2指数与其他期刊评价指标的相关性,其次对hq2指数进行独立样本T检验,最后采用回归分析分别分析h指数、影响因子与hq2指数的拟合优度。[结果/结论]研究结果表明:hq2指数相比
〔摘 要〕视频资源管理系统是一种视频资源发布和管理平台,它直接面向广大用户提供视频资源共享服务和视频资源长期保存服务。清华大学图书馆设计并应用了视频资源管理系统,主要功能模块包括视频资源上传、元数据编目、转码、发布、保存和权限管理等。视频内容包括学生原创作品、名人名师讲座、人文课程以及图书馆原创视频等,采取分角色权限控制,分部门资源管理、特色资源独立呈现、统一保存等方式,应用以来取得良好效果。在设
〔摘要〕[目的/意义]旨在探究问诊类医疗APP用户信任的影响因素,提炼出对运营和管理具有积极意义的意见和建议。[方法/过程]在整合信任建立模型和声誉二维评估模型的基础上,从过程、制度和特征的多维视角出发,分析影响问诊类移动医疗APP用户信任的因素,提出研究假设并构建研究模型。实证研究部分,采用“日志追踪 调查问卷”的规范性实验方法,选取“春雨医生”移动医疗APP的用户为实验者,收集了280份有效数
2019年申请季即将打响,对于2018年各位11年级升12年级的将要申请的学生来说,选校是首要问题,而暑假阶段选校必须提上日程了。在选校时,相信每个人都有自己的考虑,我要选排名高的,我要专业强的,最终选来选去还是拿不定主意。本次专栏给读者带来留学资深专家所提出的选校可供参照指标,留学预备党们可以自己附上权重,按照“技术流”来选校。  从学术方面考量  录取率  你可以根据自己的GPA和SAT成绩,
摘要:[目的/意义]研究机构指数(Author Affiliation Index)与主要文献计量指标关系具有重要意义,可以进一步推进机构指数的应用。[方法/过程]本文以图书馆情报与文献学期刊CSSCI期刊为例,基于中国知网CNKI引文数据库,计算出各期刊的机构指数,并采用相关系数、偏最小二乘法对其与影响因子、h指数、被引次数的关系进行了分析。[结果/结论]研究发现:机构指数与影响因子正相关但拟合
〔摘要〕在我国科技重大专项制度以及吉林省科技信息研究所知识服务现状的基础上,提出了面向吉林省科技重大专项的知识服务模式,指出通过面向吉林省科技重大专项提供知识服务能够显著提高知识服务效果,对于科技重大专项以及科技信息机构来说能够取得双赢的结果。文章的最后就如何开展面向吉林省科技重大专项的知识服务提出了对策。  〔关键词〕知识服务;科技重大专项;科技信息机构  〔中图分类号〕G391〔文献标识码〕A