科技文献要素关联与揭示研究述评

来源 :河北科技图苑 | 被引量 : 0次 | 上传用户:BLUECAT
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:分析了开展科技文献要素关联与揭示研究的重要价值,从引文、关键词、作者、期刊、多个文献要素等要素关联角度对国内外相关研究进行了述评,指出了当前研究存在的问题及未来研究的重点。
  关键词:科技文献;文献要素关联;信息组织
  中图分类号:G354文献标识码:A
  每一篇科技文献都是由若干个要素(Entities)组成,如作者、机构、关键词、期刊、基金、引文、会议等。这些要素结合在一起构成了一篇科技文献的重要特征,也是科技文献之间相互区别的重要特质。在文献计量研究中,通常用分析要素之间关联的方法去探索科技文献之间的关联,进而映射科学领域在不同方面的关联结构,揭示科学活动的发展规律。由于科学发展的累积性、继承性和连续性,使得不同的学科主题之间、不同的文献要素之间呈现出直接或者间接的单一联系或多重关联,这些联系不仅揭示了知识与知识之间的潜在模式,是知识创新的重要基础,是提高信息检索效果的重要保证。国内外的相关研究都在不同程度地揭示与识别这些科学主题、文献要素及其之间的关系。随着科技文献资源的持续增加,人们从海量信息中检索到自己需要的内容越来越困难,传统的信息检索技术难以全面地满足用户的深层次需求。为此,各图书情报机构正在从文献组织向知识组织,从文献检索向知识元检索服务转变,这迫切需要相关的理论为其提供指导。
  1研究意义与价值
  科技文献通过各类要素产生不同维度、不同层面的关联。对科技文献要素关联现象进行研究、探索、分析和揭示,一方面可发现知识流动和传播的规律,发现学科的知识结构组成;另一方面可从而从多个维度挖掘科技文献之间的关联关系,提高信息检索的相关度。因此,本研究在充实图书情报学科研究方法体系的同时,还将进一步丰富知识组织和信息检索研究范畴,深化知识组织和信息检索的理论体系。
  从实践和应用层面看,科技文献要素关联揭示与融合方法的研究,能够实现对信息检索结果的相关度排序,提高用户的信息查找效率;对科技文献要素关联的揭示,能够形成基于科技文献要素关联的知识资源集合体,实现文献系统知识导航、知识发现等更具专业性的深层次服务,更好地满足创新主体对知识信息的深层次需求。此外,利用该方法对科技文献的挖掘和组织,还有助于体现图书情报工作人员的价值和重要性。
  2国内外研究述评
  对科技文献要素之间关联的研究一直是图书情报学界的重要内容。特别是在当前海量数据环境下,如何把相关文献快速聚合并反馈给用户是图书情报服务的迫切需求。一直以来,国内外学术界主要从引文、关键词、作者等要素关联角度展开理论研究和实践。
  2.1基于引文的文献关联研究
  在引文关联方面,在Garfield(1955)提出引文
  ★基金项目:本文系国家自然科学基金项目“基于海量数字资源的科研关系网络构建研究”(项目编号:G031401)和河北大学管理学院创新项目“基于引证关系的科研实体聚合方法研究”的研究成果之一。 分析理论并创立科学引文索引、Kessler(1963)定义引文耦合、Small(1973)和Marshakova(1973)提出同被引之后已经基本成型。Tight(2008)等人利用共引分析并运用聚类方法对特定研究领域的学术团体进行了确定; Oda(2008)等人将共引分析以及聚类技术运用于专利文献以对专利的价值进行衡量与体现,并由此给出技术转移的潜在方向以及辅助相关专利战略的制定。国内,王建芳、冷伏海(2006)分析了共引的主要应用领域,曾建勋(2012)以引文链接为基础,结合主题链接、行为关联链接、本体链接等关联方式,构建了基于引文的知识链接系统。
  2.2基于共词的文献关联研究
  针对关键词之间的关联,最主要的是共词分析法。1983年,Callon提出了共词分析。1986年,Swanson教授提出了基于非相关文献的知识发现的方法。Gordon和Lindsay(1996,1999)改进了Swanson的基于单词的词频统计方法,利用基于短语的词频统计方法。Weeber(2001)利用UMLS的语义类型实现了自然语言与UMLS概念的映射。这种语义筛选的机制能够产生概念的聚类,尤其是中间集合的概念聚类。Padmini Srinivasan(2004)将Weeber的语义分析方法和Gordon的词频统计方法结合起来提出基于概念的词频统计方法,将自然语言通过MeSH与UMLS的语义类型联系起来,并利用Gordon的统计参数,计算概念之间的相关性。较先进的是Kostoff(2003)提出的DT(Database Tomography)共词法,其短语自动抽取和邻近共现分析等特点,为揭示出的主题结构(共词网络)赋予了一定的语义内涵。国内,钟伟金、李佳(2008),常春、赖院根(2009)、黄芳等(2009)、李纲(2011)等在共引的主要应用领域、共词分析的过程与方式、基于共词的词间关系分析、基于共词的同义词自动识别、基于语义的共词分析法等方面做了全面的研究。
  2.3基于合著的文献关联研究
  对作者这一要素的关联研究方面,作者合著分析一直是反映学者关系的重要方法,它主要用于分析研究领域的社会结构,特别是研究团队识别和合作关系研究。由于作者合著分析的实现相对简单,因此,对合著关系的研究更侧重于实际应用:即合著分析所形成的作者网络能不能反映现实真正的合作关系。1981年,white和Griffith提出作者共被引分析。Beaver(2009)等最早利用合著现象分析研究人员间的合作关系,但后来刘志辉(2010)等人的一系列研究发现,利用合著关系无法揭示那些非正式合作。应用合著分析研究学者合作关系虽然具有一定的局限性,但仍然不失为一种有效方法。
  2.4基于期刊的学科关联研究
  在期刊关联研究方面,1991年,McCain首次提出期刊共引分析,分析了经济学领域的学术期刊;2000年,Ding,Y利用期刊共引分析,可视化地研究了1987-1997年情报检索发展进程;2003年,Tsay,MY用期刊共引分析方法可视化研究了半导体方面的文献;2004年,LiuZao用期刊共引分析方法研究了城市规划方面的文献,并将文献结构可视化;2005年,Marshakova用期刊共引分析方法可视化地研究了妇女学、图书情报学方面的文献,并指出了其学科领域的分布;国内,2006年侯海燕利用 JCA分析并绘制了国际科学计量学核心期刊知识图谱。   2.5对多个文献要素的综合关联研究
  对于科技文献各要素的综合关联研究方面, Astrom(2002)同被引和共词两种途径研究了图书情报领域的研究结构;Schneider等(2005)利用同被引分析、引文上下文分析和名词短语解析三种方法,在不限定文献来源领域的情况下能够识别叙词术语; Morris(2007)绘制了文献内部要素产生的关联图。Ahlgren等(2009)对比研究了基于文本分析和基于引文耦合两种方法所度量的文档相似度等等。Leydesdorff(2011)把“异质网络”的思想进一步扩展到了 3-mode 网络,他把作者—期刊—关键词的特征项联系起来,通过不同类型节点在同一网络中的展现,不仅有利于分析同一类型节点间以及不同类型节点间的关系,而且也是研究网络更加真实的反映。国内,邹常诗(2000)、卢宁(2007)将文献关联概括为通过词进行关联和通过参考文献关联两种基本途径。唐小荃(2005)研究了共引关联和期刊关联。孙雪婧(2007)、陈羚(2007)、韩宗芬(2007)对文献要素关联类型进行较为全面地划分提出了引用/被引用关联,创作/被创作关联,相同作者关联,出版关联和合作关联等类型。王明芳(2008)对基于关键词集合知识关联的有向性进行分析,提出了单向知识关联和双向知识关联。黄亚明、孙涛涛、郭继军(2008)在分析了文献之间可能存在各种关联后,运用文献多维关联构建了书目文献系统模型。文庭孝(2009、2010、2011)等对知识关联做了较为系统的研究,讨论了知识关联的概念、类型、特征、结构、测度及应用。温浩(2006)、温有奎、成鹏(2007)和赵艳枝(2008)则对隐含知识关联发现与挖掘进行了系统研究。胡琼芳和曾建勋(2010)从文献共引、耦合、共篇 3 个维度出发,提出并实现了一种综合三特征项的文献相关度判定方法。其研究相当于使用论文中的引文-被引文-关键词三个共同出现特征项进行匹配对比,发掘各论文之间的相关性。李勇、冷伏海(2011)在非相关文献知识发现的开放式发现模式的基础上,提出了基于非相关文献的三阶知识发现方法。黄水清、马俊岭(2011)在对Swanson非相关文献知识发现的A-B-C模式和Gordon的中介文献思想基础上,提出了包容性更广的复合关联模型。庞弘燊(2012)综合运用多重共现的分析方法及多重共现的交叉图技术对高校图书馆与核心期刊间的发文关联关系进行了分析。
  3当前研究存在的问题及未来研究重点
  3.1当前研究存在的问题
  上述研究表明,将科技文献多个要素相结合进行关联分析,已经为越来越多的学者所关注,并正逐渐体现出其研究价值。国内外研究路径相似,都从最初的对文献的引文关联转向文献其他要素项目的关联分析。同时,国内外相关研究还存在下列不足:(1)对单一文献要素或两个要素的关联关系研究较多,没有对科技文献所有的要素展开综合关联研究,特别是对强关联关系的要素研究关注较多,如引文、关键词、作者等,而对弱关联关系和交叉关联关系关注不够,而这些关联可能蕴藏较大的信息服务需求。(2)虽然关于引文关联、共现关联和非相关文献的知识关联方面的理论研究与应用比较丰富。但相对独立和比较完整科技文献要素关联的理论、方法与应用研究比较少,缺乏对科技文献所有要素关联现象的整体认识,缺乏高度整合的普适性的理论研究,不利于完整地揭示科技文献要素关联现象,不利于实现对科技文献要素关联现象的数据挖掘,这易造成相关文献的低信度、高冗余,影响相关文献检索与文献分类聚类效率。因为多个要素关联能够揭示出更为全面而具体的内容,因此,更全面揭示科技文献要素之间的关联关系与融合的方法仍有待研究。
  3.2未来研究重点
  以科技文献要素的识别和抽取为基础,综合运用文献外部特征和文献内部特征,构建科技文献要素关系模型,对要素关联关系进行揭示,在此基础上,进行科技文献要素关联度评价和关联融合研究应是未来研究的重点。具体内容包括如下几个方面:
  3.2.1科技文献要素识别与抽取研究
  (1)科技文献要素实体的语义特征界定。为了更细颗粒度地识别科技文献要素,更深入地揭示不同科技文献要素的属性,研究如何基于海量文本统计和自然语言来理解科技文献要素的语义特征。
  (2)科技文献要素的抽取。采用成熟的命名对象识别工具,对科技文献中的要素进行抽取,包括从结构化文本中抽取科技文献要素和从非结构化文本中抽取科技文献要素。
  (3)科技文献要素的消歧与消重。科技文献要素的识别和抽取过程中不可避免地会遇到同一个要素的多个名称或不同要素的重名等现象,需要进行消歧和命名规范化处理。
  (4)主要科技文献要素的规范化文档建设。研究如何定义科技文献要素规范化文档的建设规范,涉及规范文档的结构、索引、检索及更新维护等多个方面。基于科技文献要素规范化所形成的基础数据和建设规范,构建主要科技文献要素的规范文档。
  3.2.2科技文献要素关联关系类型研究
  海量数字资源环境下的科技文献要素间具有多种不同的属性(如主题、共现、引证等),科技文献要素间关系类型也丰富多样(如合作、引用、主题等),拟面向不同的任务目标,基于不同要素属性、研究多种科技文献要素关系的类型、特征和结构。
  首先,根据现实世界的科技文献整理科技文献要素之间的关联关系,如同一关系,隶属关系,合作关系,引证关系,因果关系,条件关系,共现关系等;之后构建要素关联关系模型,为实现半结构化数据向结构化数据转化打下基础,同时为实现科技文献各要素间的关系建立关系数据表;最后,提出科技文献要素关联分析方法,总结科技文献要素关联关系的表现形式、特征、结构和功能。
  3.2.3科技文献要素关联关系的揭示方法研究
  除从科技文献的作者、机构、关键词、题目和引文等进行单一关联关系的揭示外,将综合各类要素本身特征,进行不同科技文献要素类型间的交叉关系的揭示研究。通过细化科技文献要素之间的基本关系,针对不同粒度、不同学科、不同耦合类型、不同路径、不同强度条件下,研究科技文献中要素间深层次关系的标注,综合运用基于模式匹配、基于词典驱动、基于机器推理和基于本体的关系揭示等手段进行科技文献要素关联关系的多阶揭示方法研究。具体内容包括:   (1)分析各类型要素关联关系的关联机理、动机、优势、局限、可视化及其阐释;
  (2)选择科技文献某一要素(如关键词、主题词、作者等)进行单一关联关系揭示的实证研究;
  (3)综合各类科技文献要素本身特征,进行不同科技文献要素类型间的交叉关系的揭示研究。
  3.2.4科技文献要素关联度评价及关联融合研究
  在海量数据环境下,各科技文献要素间的二阶和多阶关联数量会更加丰富,需要研究如何利用关联有效性算法来评价并计算同类科技文献要素关系中的要素间的关联度。过滤低频二阶关联关系,以增加科研关系的挖掘深度和广度。并从关联优先度和属性优先度角度综合分析科技文献要素在科研关系网络内的相互关联强度,探索要素间多类型关联关系的加权、筛选和融合规则,以实现同域内各类型科研关系的有效融合。
  3.2.5科技文献要素关联方法应用研究
  通过构建科技文献要素关系网络,以结构化的方式关联各类科技文献要素节点,更加精确和深入地揭示科研人员、机构、关键词、引文、期刊、会议、基金等要素所形成的知识关联。具体包括三方面内容:
  (1)通过可视化方法形象、动态地展现科研关系网络中科技文献要素节点及其关系,从机构、作者、主题、学科、期刊等多个不同维度,分析特定学科在各个时空段内的发展态势;揭示不同机构、人员、主题、学科等在时间序列中发展轨迹和聚焦重心,实现优先主题的内容检测。
  (2)针对特定作者、特定机构、特定期刊、特定学科等,基于引证强度、学术影响力、创新能力、研究前沿、团队水平等维度,通过科研关系网络的烟花分析,建立知识评价模型和评价指标体系,对基础科学指标以及涉及的人员、机构等科技文献要素进行多维度知识评价。
  (3)以科技论文数据库文献集为例,对不同科技文献要素和要素之间的关联关系进行实验和规范化描述,对项目研究提出的科研要素关系的揭示与聚合在实验数据集上加以测试,结合试验结果(即对信息检索相关度的影响)对前期方法进行修正。
  在大数据环境下,对信息资源的处理不再是整部著作、整篇文档,而是深入到文献内部对信息碎片进行处理,因此,对科技文献内部要素关联关系的分析与揭示的理论及应用研究变得日益重要。对科技文献要素关联关系进行分析和揭示,不仅可以为构建大型科研关系网络奠定基础,还可以为知识组织和提高信息检索效果提供理论指导。尽管国内外学者对该问题进行了大量的相关研究,但仍存在一些问题和不足,希望本文能够抛砖引玉,引起更多人对科技文献要素关联与揭示研究的兴趣,共同推动本领域的发展。
  参考文献
  [1]Morris S.A.Unified mathematical treatment of complex cascadedbipartite networks:thecaseof collections of journal papers[D].Oklahoma:OklahomaStateUniversity,2005.
  [2]Morris S.A.etc.DIVA: a visualization system for exploring document databases for technology forecasting[J].Computers & Industrial Engineering,2002,(43) : 841-862.
  [3]Morris S.A.,Gary G.Yen.Crossmaps: Visualization of overlapping relationships in collections of journal papers [EB/OL].(20110321)[20131130].http://www.pnas.org/cgi/doi/10.1073/ pnas.030760410.
  [4]Loet Leydesdorff.What Can Heterogeneity Add to the Scientometric Map? Steps towards algorithmic historiography[EB/OL].(20110321)[20131130].http://arxiv.org/abs /1002.0532.
  [5]胡琼芳,曾建勋.基于多共现的文献相关度判定研究.情报理论与实践,2010,33(8):77-80.
  [6]K.W. McCain. Mapping economics through the journal literature: An experiment in journal co -citation analysis[J].Journal of the American Society for Information Science,1991,42(2):290-296.
  [7]Z.Liu.Visualizing the intellectual structure in urban studies: A journal co -citation analysis (1992 -2002)[J].Scientometrics,2005,62(3):385-402.
  [8]侯海燕.国际科学计量学核心期刊知识图谱[J].中国科技期刊研究,2006,17(2):240-243.
  [9]邱均平,赵为华.期刊同被引的实证计量研究[J].情报科学, 2008, 26 (10): 1447-1450.
  [10]肖明,陈嘉勇,李国俊.文献计量系统的文献-实体关系通用模型研究[J].图书情报工作,2012,56(22):129-134.
  [11]张云秋,郭柯磊.基于双向词频统计的非相关文献知识发现排序方法研究[J].情报科学,2009,27(8):1240-1244.
  [12]李勇,冷伏海,王林.基于非相关文献的三阶知识发现方法探讨[J].中国图书馆学报,2011,37(4):21-26,69.
  [13]黄水清,马俊岭.非相关文献知识发现复合关联的模型与实证[J].情报理论与实践,2011,34(4):69-72.
  [14]张晗,崔雷,姜洋.运用非相关文献知识发现方法挖掘科研机构潜在的合作方向[J].现代图书情报技术,2006,(4):45-48.
  [15]黄亚明,孙涛涛,郭继军.运用文献多维关联构建书目文献系统模型[J].情报科学,2008,26(6):896-899.
  [16]刘菊红,缪有刚,于建荣.基于互信息的二阶共现概念相关度研究[J].图书情报工作,2009,53(18):123-127.
  [17]张云秋,冷伏海.非相关文献知识发现初始集过滤方法的试验研究[J].图书情报工作,2009,53(16):116-119,12.
  [18]荣莉莉,蔡莹莹,王铎.基于共现分析的我国突发事件关联研究[J].系统工程,2011, 29(6):1-7.
  [19]曾建勋,赵捷,吴雯娜,等.基于引文的知识链接服务体系研究[J].情报理论与实践, 2009,(5):1-8.
  [20]Morris,S A,Van der Veer Martens B.Modeling and Mapping of Research Specialties[J].The Annual Review of Information Science and Technology,2007,42(3):13.
  (收稿日期:20131128责任编辑:张静茹)
其他文献
水轮机过水部件如转轮、顶盖、底环采用迷宫密封方式。在运行中此类结构的部件磨损严重,不利于机组安全稳定运行,使用周期短,修复困难、检修成本较高。因此,将在实践中得到的点滴
摘要:简介了知识资本理论、构建图书馆知识资本结构基本模型,阐述了显性知识与隐性知识的关系,分析了图书馆隐性知识转移特点。通过建模将图书馆知识资本循环系统划分为内循环系统、外循环系统、系统整体循环三个组成部分,并进行了分析归纳。  关键词:知识资本循环;隐性知识;知识转移  中图分类号:G250 文献标识码:A  1 知识资本理论简介  知识资本(Intellectual capital)亦可译成智
新的课程观认为,教师与学生是课程的开发者、实践者、实施者。课堂教学是个动态的不断发展推进的过程,有灵活的生成性和不和预测性,优秀教师总是善于引导有效的课堂资源的生成,并
摘 要:随着社会的发展,生活品质的提高,人们在重视城市环境景观的同时,也越来越重视自身居住的环境景观,独立式住宅也逐渐地崭露头角。在进行独立式住宅景观设计时应把握的要点有入口空间设计,室外空间的结合,室外地面的铺装和室外休闲娱乐空间的创造等。  关键词:住宅 环境 景观设计  独立式住宅楼通常为一层或两层建筑,四周是宽敞的草地和各式各样的植被。独立式住宅在我国发展仅有几十年的时间,但它是美国西部的
随着新课程改革的进一步深化和发展,国内学校的教学观念也伴随着新的更新与转变,新的教学理念和教学思想要求学校以及教师对自身的角色、教育对象以及教学过程都形成全面的认
随着高中课堂教学改革的深入开展,高效课堂在各中小学的课堂教学改革中掀起了一番新的浪潮,而小组合作学习模式在课堂教学中的应用,不仅提高了学生学习的主动性和对学习的自
语文课程标准明确指出:“培养高尚的道德情操和健康的审美情趣,形成正确的人生态度,是语文教学的重要内容。”作为一名语文教师,应当利用教材中丰富的美育因素诱发学生的情感兴趣
期刊
摘要:高校图书馆嵌入式学科信息服务是介于知识服务与信息服务之间的一种服务,是以用户需求为驱动的深层次信息服务模式,特点在于空间、内容、目标、系统的全方位“嵌入”,注重学科服务中的人性化关怀。EResearch环境下嵌入式学科信息服务的内容包括:学术交流宣传推广、科研数据管理服务和学科分析与科研决策。其成功开展需要相应的服务模式与服务运作机制为支撑。  关键词:EResearch;高校图书馆;嵌入式
摘要:通过在企业中设立“查新辅导员”,实现双方有效沟通和优势互补,增加企业服务体验,在相互依赖相互影响中提高高校图书馆资源效用,提高中小企业信息服务满意度,实现高校图书馆服务质量与中小企业经济效益的共同提高。  关键词:高校图书馆;中小企业;协同;信息服务  中图分类号:G251.5 文献标识码:A  1 地方中小企业信息需求分析  中小企业是我国科技创新的主体,是推动经济发展的中坚力量。据有关数
摘 要:我国民办院校的发展,已经进入一个新的发展转型时期,学校教育经营状况和规模进一步呈现出两极分化的状态,尤其是民办高职院校,有的开始良性运转,有的则陷入半停滞不前的状态。开放式教育、因材施教、工学结合等是民办高职院校生存之道,以苏州高博软件技术职业学院环境艺术设计专业为例,对基于现代教育技术民办高职院校环艺专业工学结合的实践与创新提出一些建议。  关键词:现代教育技术 工学结合 创新  [本文