增强机构知识库内容发现和利用影响的策略与方法实践

来源 :图书与情报 | 被引量 : 0次 | 上传用户:qianqian3580
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:文章以中国科学院机构知识库CAS OpenIR为例,采用基于学术搜索引擎Google Scholar优化的策略和方法,如针对Google Scholar收录原则、Google Scholar元数据体系、sitemaps、Robots协议等策略和方法进行分析和实践,通过提升机构知识库在Google Scholar中的收录比率,进而增强机构知识库中内容被发现引用的机率,以扩大IR利用影响力。
  关键词:机构知识库 谷歌学术搜索 学术搜索引擎优化 中科院机构知识库
  中图分类号: G252 G255.76 文献标识码: A 文章编号: 1003-6938(2012)05-0085-05
  1 引言
  近年来机构知识库(Institutional Repository,IR)快速稳步增长,已覆盖了大部分知名高校和科研机构。目前在开放获取机构资源库OpenDOAR中注册登记的IR已有2163家[1],除此以外还有相当一部分数量的IR未在OpenDOAR中注册。IR做为支持开放获取的一种重要形式,支持机构实施数字知识资产的长期保存和管理,提高机构及科研人员智力成果的发现几率、传播范围和影响,是吸引机构及科研人员重视和参与IR建设的重要因素。相关的研究也表明,支持开放获取的论文其引用影响可获得25%~250%的提升[2]。 而Arlitsch等人[3]的调查结果显示,当前IR内容被Google Scholar收录的比率总体上维持在10%~30%的水平,甚至有0%的IR(见图1)。也就是说,大部分IR的内容没有得到充分的发现和利用,仍然局限在小范围内进行交流传播。
  Google Scholar作为一项针对学者和科研人员的免费学术文献搜索服务,现在已成为学者、研究人员和学生查找专业文献资料的首选工具[4]。其搜索的范围涵盖了几乎所有知识领域的高质量学术研究资料,包括论文、专业书籍以及技术报告等。Google Scholar不但可以过滤普通网络搜索引擎中对学术人士无用的大量信息,通过与众多学术文献出版商的合作,还加入了许多普通搜索引擎无法搜索到的内容。目前,科研用户通过网络来获取资源,第一选择就是通过Google等搜索引擎进行大范围搜索,其次考虑利用专业的学术数据库,最后才会去翻阅学术期刊。这种检索顺序已经形成了一种社会习惯。
  因此,如何解决IR被搜索引擎Google Scholar收录,提升IR中学术文章被Google Scholar收录的比率,已成为增强IR内容可发现性和可见性的关键。本文以中国科学院研究所IR平台CAS OpenIR[5]为例,采用学术搜索引擎优化(Academic Search Engine Optimization,ASEO)的策略和方法,通过提升IR在Google Scholar中的索引比率,进而增强IR中内容被发现引用和利用影响力。
  [图1 IR被Google Scholar收录情况调查表[3]]
  2 ASEO策略和目的
  ASEO建立在传统的SEO[6]基础之上,是从普通的SEO发展而来。由于学术搜索引擎Google Scholar与普通搜索引擎有着明确的定位区别,因此ASEO与SEO有着明显的不同之处。
  SEO指通过采用易于搜索引擎索引的合理技术手段和策略,使网站各项要素适合搜索引擎的检索原则,从而更容易被搜索引擎收录和优先排序。SEO基于网页(Web Page),收录过程较灵活和容易。IR属于学术产出的数据库平台,有着自身的元数据元素集,其中的学术文章属于“Academic Invisible Web”[7],不能被Google Scholar直接访问和索引。因此,在被学术搜索引擎Google Scholar收录前,需要对IR进行ASEO改造,使其符合Google Scholar索引标准,易于被Google Scholar收录爬取。即:
  (1) 使IR可以被搜索引擎Google Scholar更好地收录和更新(包括IR的元数据和全文);
  (2) 使搜索引擎在规则允许的范围内进行索引,明确IR的哪些页面可以被索引收录,哪些页面不能被索引收录;
  (3) 在用户使用Google Scholar搜索时,可以排名靠前的呈现IR中的相关条目,起到推介IR的作用;
  (4) 将IR中开放权限的全文纳入Google Scholar的全文检索中,增加IR中论文的可见性,提高论文的被引用率。
  3 Google Scholar收录原则和排名算法
  Google Scholar针对学术性数据库内容的收录和索引,有明确的收录原则[8],如:① 被收录文章需要有唯一的URL;②匿名用户可免费地通过原文URL进入阅读被收录文章;③数据库服务的Robots.txt协议正确配置,明确允许及禁止Googlebot爬取的路径及内容范围;④数据记录的Meta标签符合Google Scholar Meta规则,并且必须包含DC.title,DC.creator,DCTERMS.issued三项描述元数据;⑤记录除了题录文摘信息外,被收录记录必须要有全文;⑥全文格式为PDF格式。
  Google Scholar检索排名继承了普通Google检索中应用的PageRank算法[9],即主要看某项学术内容、页面被引用的情况,同时还将文章全文、作者和出版物等因素纳入算法,从而保证检索结果的高相关性,提高查准率。学术论文被引述的频度越多,一般判断这篇论文的权威性就越高,它的PageRank值就越高。
  4 面向IR的ASEO策略与方法实现
  根据学术搜索引擎Google Scholar收录、排名的要约特点,本文中笔者将选取ASEO中的关键环节,就设计思路和实现的过程做一分析说明。
  4.1 搜索引擎注册
其他文献
目的 探讨主动脉内球囊反搏(IABP)在左室室壁瘤手术患者围手术期应用的效果.方法 回顾性分析1999年1月~2012年4月于阜外医院接受左室室壁瘤手术的282例患者资料,男性221例,女
目的:探讨基底动脉尖综合征的早期确诊及治疗与患者的预后关系。方法:经MRI和DSA确诊后,急性期给予脱水、降颅压、改善脑循环、抗血小板聚集。脑保护及预防并发症等治疗;水肿严重
目的:分析应用抗旋股骨近端髓内钉(PFNA)治疗股骨转子间骨折的效果。方法:钝性分开外展肌纤维,以大粗隆顶点稍内侧为进针点并置入导针。置入主钉后透视下置入螺旋导针,位置在正位
目的:评价经皮椎体成形术(percutaneous vertebroplasty,PVP)治疗新鲜骨质疏松性椎体压缩骨折的短中期临床效果。方法:54例新鲜胸腰椎骨质疏松性压缩骨折,均采用单侧椎弓根穿刺注
作为承载城市街道办事处信息的重要媒体,街道政务外网直接面对社区居民,担负着为民办事、为民服务,并与社区居民进行信息交流与相互沟通的任务。本文通过近年来对街道政务外网建