基于Heritrix的网络学术文献获取研究

来源 :图书情报工作 | 被引量 : 0次 | 上传用户:wdqbupt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
通过分析研究网络学术文献的主要来源、常用文件格式及Heritrix的工作原理,制定基于Heritrix的网络学术文献获取方案,从种子站点选择或抓取任务配置、文件类型和大小过滤以及学术文献判定等方面对整体方案进行具体设计和分析,并搭建实验平台,编写相关程序进行实验以验证该方案的可行性,最后指出后续研究方向。 By analyzing the main source of online academic documents, common file formats and the working principle of Heritrix, this paper develops a scheme for obtaining academic documents based on Heritrix network, including selecting or capturing task configuration, file type and size filtering, and judging academic documents Specific design and analysis of the overall program, and set up an experimental platform, the preparation of the relevant procedures for experiments to verify the feasibility of the program, and finally pointed out the follow-up research.
其他文献
从清政府学部筹办、京师图书馆颁布《京师图书馆及各省图书馆通行章程》开始到民国时代,国民政府教育部、国立京师图书馆围绕国立京师图书馆(包括京师图书馆、国立北平图书馆)的
高校图书馆,是高等教育中提供学习和科研研究资料的一个必不可少的机构。它通过多样化的发展来满足人们越来越多和越来越复杂的需求。能够区分现代图书馆和传统图书馆最好的方
档案是国家机构、社会组织或个人在社会活动中直接形成的有价值的各种形式的历史记录。它形成于历史发展的过程中,记录着历史,后人又通过它去了解历史。显然,档案与历史有着密不
指出造成当今我国外来务工人员信息获得不平等的主要原因,从外来务工人员信息获得权平等的内涵、必要性、解决途径等方面对这一问题进行较为系统的探讨,提出保障平等要从制度
随着供应链的不断发展,供应链企业间信息共享变得越来越重要,良好的信息共享能够有效减弱“牛鞭效应”影响,提升供应链整体效能。然而当下缺少合理、客观的信息共享综合评价
国内外数字图书馆经过十余年的发展,已经使人们的生活、工作和学习方式产生重大变革,并推动了图书馆事业和信息服务业的现代化进程。然而,信息技术的迅猛发展将导致具有“无所不
面向对象方法是一种新的软件开发方法,它的出现从根本上改善了传统软件开发方法的许多内在缺陷。本文首先回顾了计算机信息系统开发方法的演进历程,接着对主要面向对象方法流派
为了给图书情报工作者提供更多的学术交流机会,使更多作者的优秀科研成果得以发表,《图书情报工作》杂志社定于2012年下半年出版《图书情报工作》增刊(2)。内容涉及基础理论
现代信息技术的迅猛发展将人类引入日新月异的信息社会。在信息社会中,国家发展竞争实力和个人发展竞争实力在很大程度上取决于社会成员的信息素养。西方发达国家十分重视对社
进入新世纪以来,人类社会在各方面取得了飞速发展,生产力水平和规模得到大幅提升,这一切都归结于高新科技的发展和应用。作为最具发展潜力的高新技术,新兴技术对社会产业的结构变