学者网学术信息网络爬虫的研究与实现

来源 :华南师范大学 | 被引量 : 0次 | 上传用户:liulangdetianya
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
开放存取(Open Access,OA)期刊是一种用户可以免费使用的互联网学术信息资源,而且不受任何的访问限制。它为学术科研人员获取学术信息资源提供了一条新的便利途径,对于各个学科领域的学术研究帮助越来越大。尽管互联网上OA期刊数量在快速增长,但是,其应有的效用和影响却没有得到充分的发挥。因为OA期刊属于网络深层资源且分散在互联网中,传统的搜索引擎不能对隐藏在检索服务接口后面的OA期刊资源建立索引,不能满足用户通过搜索引擎直接获取OA期刊资源的需求,造成了这些开放资源的浪费,这也是所谓的“孤岛”问题。因此,必须将不同开放存取期刊资源的检索服务加以整合,建立在线资源集成服务平台,从而实现资源快速便利的共享,而OA期刊站点的学术信息采集是其中关键的一步。  本文首先深入分析了现有网络爬虫采集网络信息的模型、工作方式和爬行策略,以及现有Web页面信息提取方法的优势和劣势,总结了大量OA期刊网站的结构及页面信息展示特征。在此工作基础上,提出了基于用户预定义规则的OA期刊页面学术信息提取方法,此方法充分考虑了OA期刊站点的结构和页面特征,在HTML DOM树中标注目标信息并归纳推导出提取规则,从而达到自动提取学术信息的目的。实验结果表明,此方法具有较高的查准率和召回率。  其次,根据科研用户个性化和精确采集学术信息的需求目标,在学者网(SCHOLAT.COM)学术搜索引擎服务平台上,设计了学术信息网络爬虫的总体方案,包括总体结构、工作方式、爬行策略和工作流程。在系统实现部分,利用chrome extension机制实现了灵活部署的分布式学术信息爬虫,并详细设计了爬虫初始化模块、页面解析提取模块、调度模块和AJAX动态页面的爬行方法,并将基于预定义规则的提取方法应用到实际系统实现中。最后,对系统进行了相关测试,证明本爬虫系统的可用性和有效性。
其他文献
多核处理器的内存系统对于提高多核处理器性能与可扩展性有重要作用。随着集成电路芯片规模的增长和工艺的细化,内存系统面临着诸多因素如芯片可靠性以及功耗等方面限制的挑战
首先,该文从对网络QoS的定义开始,对QoS参数作了全面的论述.传统IP网络只提供一种QoS,就是"尽力而为"的数据服务.以往的应用在这个服务之上能够很好地工作也取得了巨大的成功
集群中的节点由于其硬件配置不同导致其性能不同,使得集群环境成为异构环境。然而,在以Hadoop为代表的MapReduce实现中并没有充分考虑到环境的异构性,致使节点的负载不能与其
随着互联网的普及与流行,以及“开放共享”观念的深入人心,越来越多的人愿意在互联网上分享他们的代码。目前,互联网上的开源代码量正以指数规模增长,如果这些代码能被很好地
论文围绕多跳无线网络以吞吐量最大化为目标的链路调度问题展开研究,重点解决单信道多跳无线网络和新型的多信道多跳认知无线电网络这两类不同网络类型下的链路调度问题。在传
网络的勃兴为维吾尔文的信息处理带来了新的挑战和新的希望。一方面维汉民族之间的交流日益频繁和深入,迫切需要机器翻译、跨语言信息检索、维汉双语新词辞典等工具的支持,而这
随着数据存储技术的快速发展,越来越多的复杂对象被描述和存储。为了减少在数据挖掘中特征提取的时间开销,需要对特征提取方法进行加速。特征选择和特征抽取都可以从一定程度
该文首先介绍电气传动的发展状况和交流调速的应用研究,并对交-交变频中存在的问题以及未的研究方向进行了分析和展望.通过对几种交-交变频研究方法进行比较,选择了适合该文
在大气湍流动力环境下,由于湍流场密度不均匀且随机扰动,远距离成像探测系统获取的单帧图像呈随机的畸变和空间可变的模糊效应,序列图像呈抖动效应。该畸变退化现象严重影响探测